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摘要 
统计 独立 性 是 统计 学 和 机 器 学 习 领 域 的 基础 性 概念 ， 如 何 表示 和 度量 统计 


独立 性 是 该 领域 的 基本 问题 。Copula 理论 提供 了 统计 相关 关系 表示 的 理论 
工具 ， 而 Copula 业 理 论 则 给 出 了 度量 统计 独立 性 的 概念 工具 。 本 文 综述 了 
Copula 箭 的 理论 和 应 用 ， 概 述 了 其 基本 概念 定义 、 定 理 和 性 质 ， 以 及 估计 
HE. MAT Copula 科 研究 的 最 新 进展 ， 包 括 其 在 统计 学 的 十 个 基本 问题 
(结构 学 习 、 关 联 发 现 、 变 量 选择 、 因 果 发 现 、 系 统 辨识 、 时 延 估 计 、 域 自 适 
应 、 正 态 性 检验 、 双 样本 检验 和 变 点 检测 等 ) 上 的 理论 应 用 。 讨 论 了 前 四 个 
理论 应 用 之 间 的 关系 , 以 及 其 对 应 的 深层 次 的 相关 性 和 因果 性 概念 之 间 的 联 
A, 并 将 Copula JI]. (BF) 独立 性 度量 框架 与 基于 核 函数 和 距离 相关 的 
同类 框架 进行 了 理论 对 比 ， 又 通过 仿真 和 实际 数据 实验 评估 验证 了 Copula 
RAHI SCI DEBE PE. MT Copula 炉 在 理论 物理 学 、 天 体 物理 学 、 地 球 物理 
学 、 理 论 化 学 、 化 学 信息 学 、 材 料 学 、 水 文学 、 气 候 学 、 气 象 学 、 环境 学 、 牛 
态 学 、 动 物 形 态 学 、 农 学 、 认 知 神经 学 、 运 动 神经 学 、 计 算 神 经 学 、 心 理学 、 
系统 生物 学 、 生 物 信息 学 、 临 床 诊断 学 、 老 年 医学 、 精 神 病 学 、 公 共 卫 生 学 、 
经 济 学 、 管 理学 、 社 会 学 、 教 育 学 、 计 算 语言 学 、 新 闻 传 播 学 、 法 学 、 政 治 
学 、 军 事 学 、 情 报 学 ， 以 及 能 源 工程 、 食 品 工 程 、 土 木 建 筑 、 交 通 运 输 、 制 
造 工 程 、 可 靠 性 工程 、 冶 金工 程 、 化 学 工程 、 航 空 航天 、 兵 器 工程 、 车 辆 工 
程 、 电 子 工 程 、 通 信 工 程 、 高 性 能 计算 、 信 息 安 全 、 测 给 遥感 和 金融 工程 等 
领域 的 实际 应 用 。 


关键 词 : Copula Wj; ER; 统计 独立 性 ; 条 件 独 立 性 ; 相关 性 ; 因果 性 ; 
结构 学 习 ; 关联 发 现 ; 变量 选择 ; 因果 发 现 ; 系统 辨识 ;时 延 估 计 ; 域 自 适 
应 ; 正 态 性 检验 ; 双 样 本 检验 ; 变 点 检测 ; 交叉 学 科 应 用 


Abstract 


Statistical independence is a core concept in statistics and machine learn- 
ing. Representing and measuring independence are of fundamental impor- 
tance in related fields. Copula theory provides the tool for representing 
statistical independence, while Copula Entropy (CE) presents the tool 
for measuring statistical independence. This paper first introduces the 
theory of CE, including its definition, theorem, properties, and estima- 
tion method. The theoretical applications of CE to structure learning, 
association discovery, variable selection, causal discovery, system identi- 
fication, time lag estimation, domain adaptation, multivariate normality 
test, two-sample test, and change point detection are reviewed. The re- 
lationships between the former four applications and their connection to 
correlation and causality are discussed. The frameworks based on CE, 
the kernel method, and distance correlation for measuring statistical in- 
dependence and conditional independence are compared. The advantage 
of CE over other independence and conditional independence measures 
is evaluated. The applications of CE in theoretical physics, astrophysics, 
geophysics, theoretical chemistry, cheminformatics, materials science, hy- 
drology, climatology, meteorology, environmental science, ecology, ani- 
mal morphology, agronomy, cognitive neuroscience, motor neuroscience, 
computational neuroscience, psychology, system biology, bioinformatics, 
clinical diagnostics, geriatrics, psychiatry, public health, economics, man- 
agement, sociology, pedagogy, computational linguistics, mass media, law, 
political science, military science, informatics, energy, food engineering, 
architecture, civil engineering, transportation, manufacturing, reliability, 
metallurgy, chemical engineering, aeronautics and astronautics, weapon, 
automobile, electronics, communication, high performance computing, cy- 


bersecurity, remote sensing, and finance are briefly introduced. 


Keywords: copula entropy; transfer entropy; correlation; causality; struc- 
ture learning; association discovery; variable selection; causal discovery; 
system identification; time lag estimation; domain adaptation; normality 


test; two-sample test; change point detection; interdisciplinary application 
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统计 独立 性 是 统计 学 和 机 器 学 习 领 域 


fir H 


ES 
EH 


是 统计 学 的 基本 问题 。 在 统计 学 早期 


mind 
的 


相关 系数 的 概念 来 度量 统计 独立 性 ， 并 应 月 


HF 


关 性 的 研究 中 Copu 
联 关系 的 理论 工具 Bi 
的 关联 关系 都 对 应 着 一 个 用 于 表 
函数 表示 了 多 变量 之 间 全 部 的 关联 关系 ， 


概念 ， 如 何 
19 世纪 , 就 有 Pearson [1] 提出 了 
优生 学 的 研究 。 上 个 世纪 , 在 对 相 
la 函数 理论 被 提出 , 提供 一 种 统一 
BJ. 根据 Sklar 定理 册 ， 通 俗 地 讲 ， 任 何 一 个 多 变量 之 间 
示 这 种 关系 的 函数 ， 称 为 Copula 函数 。Copula 
且 与 单个 变量 的 公 


表示 随机 变 


A 


示 和 度量 统计 


= 


量 之 间 统 计 关 


FH 


E 质 是 无 关 的 。 


2008 年 , 马 健 和 和 孙 增 折 提出 了 Copula fif (Copula Entropy: CE) 的 概念 Bl. 
CE 的 概念 由 Copula 密度 函数 定义 而 来 ， 本 质 上 是 一 种 香农 彤 的 形式 。 我 们 也 
证 明了 它 与 信息 论 6) 中 的 互信 息 概念 是 等 价 的 。 FRE, CE 的 提出 是 受到 了 
这 样 的 启发 ，Copula 函数 被 认为 包含 了 全 部 的 关联 关系 ， 而 互信 息 一 直 被 认为 


= 
里 


度 
这 种 必然 联系 的 研究 的 结果 ， 就 是 提出 了 
CE 是 一 种 多 变量 之 间 关 联 关系 度 


E, 
E 


CE 的 理论 。 


的 理论 , 与 关联 关系 表示 理论 


了 全 部 的 关联 关系 的 信息 ， 那 么 我 们 认为 这 二 者 之 间 必 然 有 某 种 联系 。 对 


Cop- 


ula 函数 理论 相对 应 。Copula 函数 表示 关联 关系 , 而 由 之 得 到 的 CE 度量 了 关系 


中 的 信息 量 


Es CE 是 一 个 理想 的 统计 独立 怕 


A^ 


度量 的 


"E 


E、 单 调 变换 不 变性 


AAA 


. ABIEH 


、 以 及 在 高 


H 


4) TN 


E> 


AIRE ThE et 


斯 变量 时 与 相关 系数 等 价 等 。 


CE 是 一 种 理想 的 统计 相关 性 度量 工具 , 同时 它 又 可 以 月 
E (Conditional Independence: CI). 
tT CE 的 (条件) 独立 性 度量 理论 框架 ， 将 相关 性 和 因果 


个 重要 的 统计 学 概念 一 条件 独立 人 
我 们 就 得 到 了 一 个 
性 这 两 个 基本 概念 统一 起 来 。 
CE 是 一 个 基础 性 的 统计 工 
在 2008 年 就 将 其 应 月 
系 结构 。 最 近 , 我 们 又 将 其 应 有 
自 适应 fa). ESH 
和 系统 辨识 [lg] 等 问题 上 ， 都 取得 了 良好 
作为 一 种 基础 怕 


只， 可 以 有 
到 结构 学 习 问题 上 


nS 
E 
A 
F 
Dh 


4 


110,52 bal 


统 生物 学 [80,81]. 4 
精神 病 学 (97,98). 
会 学 ul. Scere 


ac Fy 
H 息 学 


10]. HSA 


来 解决 多 个 统计 学 的 
来 学 习 统 计 变量 之 间 的 关联 关 
到 关联 发 现 图 、 变量 选择 问 、 因 果 发 现 [10] . 域 
检验 用 习 、 双 样本 检验 由 引 、 变 点 检测 [L4]. E 


[]. A 


的 应 用 效果 。 


日 来 表示 和 度量 男 一 


本 问题 。 我 们 


的 数据 分 析 工具 ，CE 被 提出 以 来 ， 在 多 个 不 同学 科 得 到 了 
际 的 应 用 ， 包 括 理论 物理 学 册 赴 、 天 体 物理 学 由 中 、 地 球 物理 学 [19]. stet 
Pq、 化 学 信息 学 il. ere pz]. kx batho]. ee po bi]. a2 


bobs), 1:25 上 gj、 动物 形态 学 (60,61). «a (62,63). 
认 知 神经 学 (64 ri]. spe (role). eee 上 4 中 、 心 理学 (rd. A 
.临床 诊断 学 也 
卫生 学 bilba. gwiwa [od hos]. gm [nod hos]. zt 
[o]. aega fa). wee 12). we 


、 老年 医学 


y 


治学 us. see qu. eRe fos], er [ud lis. amr 


8 (133 134]. træs [ol ag. xmz (1371139). 4 


ixi T [140-1146]. 可 
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靠 性 工程 kid. E ha、 化 学 工程 haoss. piama (158 169. 

a 、 车 辆 工程 e (163). re [164 6 引 、 高 性 能 
计算 og. taza ll ce S MER [Los] 和 金融 工程 f 等 。 在 这 些 
| 
对 数据 中 变量 间 统计 关系 的 理解 ， 或 者 用 于 建立 和 评价 模型 。CE 工具 不 仅 为 各 
种 应 用 提供 了 理论 支撑 ， 同 时 也 改进 了 计算 的 可 靠 性 和 效率 。 
在 以 上 实际 应 用 中 , 研究 者 也 提出 了 eii ene 如 GCMI 
方法 (65). 信息 瓶颈 (Information Bottleneck) if 算 [pi 21). 独特 信息 (Unique 
Information) 估计 [r8]. cea (61). rpm ous E [o]. + 
类 算法 (10,51). tec (151). deter [ool [Loo]. Kriza 
æ bab]. bp C (IEGAIN) [155]. 因果 压缩 [82] . 因果 
结构 学 习 TIER . LINGAM-MMI (183), Copula 参数 估计 [a] . BE Copula 
结构 选择 {173,7576 . Survival CE m CE? [167]. fil Copula Extropy 
等 。CE 作为 一 种 dam 人 方法 ， 给 出 了 一 种 处 理 相关 性 和 因果 性 的 普 适 性 
本 数学 概念 工具 ， 为 更 多 新 方法 论 的 派生 提供 了 可 能 

KERANA Copula MEADER, BORA CE 在 统计 
学 中 的 理论 应 用 ， 用 于 解决 统计 学 的 十 个 基本 问题 ， 第 图 部 分 讨论 四 个 相关 的 问 
B, AE mB CE (HC AA, 第 图 部 分 对 论文 
进行 总 结 。 


anb 
[t 


2 Copula $ 


2.1 理论 


Copula 理论 是 关于 多 随机 变量 之 间 相 互 依赖 关系 表示 的 理论 DB]. Joe 
定义 一 类 函数 ， 成 为 Copula 函数 ， 定 义 如 下 : 


定义 1 (Copula HEX) 给 定 N 维 随 机 向 量 久 二 (Xy... XN) ERX. Gu 
T X 的 边缘 分 布 函 数 u; = Filzi) i= 1,..., N. UX ow N 4 Op Esd 
C: IN S I,I = [0,1] 需要 满足 如 下 性 质 : 


1. C 的 下 确 界 为 0 且 在 单位 立方 体内 的 任意 子 立 方 体内 单调 递增 ; 
2. 人 


直观 的 理解 ，Copula 函数 就 是 在 单位 N 立方 体 上 的 分 布 函数 , 边缘 分 布 为 均匀 
分 布 , 下 确 界 为 0， 且 在 任意 向 上 方向 上 单调 增加 。 从 Copula 函数 出 发 ， 对 各 
变量 求 导 ， 可 以 很 容易 地 定义 与 之 相对 应 的 Copula 密度 函数 cu). 

Copula 理论 的 核心 结论 是 Sklar 定理 ， 给 出 了 如 何 利 用 Copula 函数 表示 
随机 变量 依赖 关系 的 结论 ， 如 下 : 
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理 1 (Sklar 定理 ) []] 给 定 任意 N 维 随机 变量 X 的 联合 分 布 函数 F(X), 
MAA BB. FOG) de Copula Bie O(n), CAR RETAKE ARA 
neg yA ES) Copula 函数 的 形式 ， 如 下 


人 


F(x) = C(Fi(z1),..., Enlen)). (1) 


Copula 函数 的 表示 将 多 变量 的 联合 分 布 与 单个 变量 的 联合 分 布 分 离开 来 ， 将 依 
赖 关系 表示 为 一 个 Copula 函数 。 因 此， 依赖 关 系 与 单个 变量 的 属性 是 没有 关系 
的 ，Copula 函数 中 包含 了 全 部 的 依赖 关系 信息 。 对 式 遇 两 边 求 导 ， 就 得 到 相应 
的 Sklar 定理 的 密度 函数 版 本 : 


= e(u) J [ p). (2) 


EP, p(-) 表示 概率 密度 函数 。 

利用 Copula 密度 函数 的 表示 ， 我 们 就 可 以 定义 Copula Ai, AF: 

定义 2 (Copula ffi) Biz 合 定 多 随机 变量 六 ， 及 其 边缘 分 布 u 和 Copula 密度 
S cu), N) Copula WELA: 


= 


A(x) = 一 f c(u) log c(u)du. (3) 


u 


在 信息 论 中 , 互信 息 (Mutual Information: MI) MAEA zE LA E BAR 


& B. nm 我 们 证 明了 二 者 本 质 上 是 相同 的 ， 也 即 是 ，MI 等 价 于 负 
的 CE， 也 可 以 表示 成 焙 的 形式 。 定 理 如 下 : 
定理 2 多 随机 变量 的 MI 等 价 于 其 负 的 CE. 

I(x) = —H,(x). (4) 


EME ARA. Fa EBT VA BSS AR AAR. RA CE 之 间 
关系 的 推论 ， 如 下 : 


推论 1 SMM x MK Tiu CE. 


=D H(i) + He(x). (5) 
以 上 结论 通过 CE 的 定义 ， 加 深 as 本 概念 及 其 之 间 关 系 的 了 解 ， 
也 因此 在 Copula 理论 和 信息 论 之 间架 一 座 桥梁 
2.2 性质 


PE 由 Copula 理论 得 到 的 CE 具有 很 多 有 趣 的 性 质 。 首 先 从 定义 来 看 ，CE 
是 一 种 特殊 的 香农 炉 ， 定 义 在 单位 体 的 概率 分 布 函数 上 ， 因 此 其 也 具有 香农 依 
具有 的 连续 性 、 对 称 性 和 可 加 性 等 特性 。 
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多 变量 香农 的 MI 定义 针对 的 是 二 变量 情况 ,但 CE 概念 不 限于 二 变量 的 情 
况 ， 也 适用 于 多 变量 的 情况 ,， 且 多 变量 之 间 具 有 对 称 性 , 扩展 了 MI 的 定义 和 适 
用 范围 。 


全 阶 次 ”由 Copula 密度 函数 而 定义 的 CE 从 一 个 新 的 角度 给 出 了 对 MI 概念 更 
深入 的 理解 。Copula 函数 被 认为 是 包含 了 随机 变量 之 间 所 有 相关 性 的 信息 ， 那 
4 CE 作为 相关 性 的 随机 性 的 度量 ， 就 等 于 给 出 了 随机 变量 之 间 所 有 阶 次 相关 
性 的 信息 量 。 


单调 变换 不 变性 ”由 于 Copula 函数 具有 单调 变换 不 变性 ， 因 此 基于 Copula K 
数 定义 的 CE 天 然 地 继承 了 这 一 不 变性 特性 。 


边缘 函数 无 关 ”上面 提 到 ，Copula 理论 将 联合 分 布 分 解 为 边缘 函数 和 Copula 
函数 两 个 相对 独立 的 部 分 ， 这 也 对 应 到 联合 依 的 分 解 : 随机 变量 的 联合 炉 也 可 
PATH MR AA CE 两 个 相互 无 关 的 部 分 。 而 MI 与 CE 等 价 ， 因 此 
MI (CE) 只 与 Copula 函数 有 关 ， 与 边缘 函数 无 关 、 联 合 函 数 无 关 ， 这 与 香农 
基于 边缘 函数 和 联合 函数 的 MI 定义 构成 了 显著 的 理论 区 别 。 


非 正 性 ”需要 指出 的 是 ，CE 本 身 是 非 正 的 , 它 表 明了 由 于 多 变量 之 间 具 有 相关 
生 ， 使 得 多 变量 之 间 相 互 包含 有 其 他 变量 的 信息 ， 因 此 就 使 得 联合 录 的 总 信息 
量 减少 , RAK AMV) FETE AIS A. 一 般 地 讲 , Ai ETE T ALA 
量 的 不 确定 性 ， 是 非 负 的 ; 而 CE 则 是 非 正 的 ， 因 为 它 度量 了 由 于 变量 间 相 关 
生 导 致 减少 的 不 确定 性 。 


i 


D 


-— 


等 价 关 系 ” 相 关系 数 是 统计 学 传统 的 相关 性 度量 ， 它 隐 含 着 分 布 高 斯 性 的 假设 。 
可 以 很 容易 证 明 ， 在 高 斯 分 布 的 情况 下 ， 相 关系 数 与 CE 具有 数学 上 的 等 价 关 
R, BI CE 可 以 由 相关 系数 矩阵 来 表示 。 


2.3 ”估计 方法 
MI 作为 信息 论 的 基本 概念 ， 具 有 广泛 的 应 用 价值 。 但 学 界 普遍 认为 MI 的 
估计 是 十 分 困难 的 。 我 们 根据 定理 2, 给 出 了 一 个 简单 且 优雅 的 非 参 数 CE (MI) 
估计 方法 加。 该 方法 仅 需 如 下 2 步 : 
1. 估计 经 验 Copula 密度 函数 ; 
2. 由 经 验 Copula 密度 函数 估计 CE. 


1 本 方法 已 经 实现 为 R 和 Python 语言 的 copent 算法 包 已 8 中 ， 并 已 分 别 在 CRAN 和 PyPI 
上 发 布 共享 。 
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给 定 随 机 变量 X 的 一 组 独立 同 分 布 样本 m1... or], 可 以 很 容易 地 通过 次 序 
统计 量 (rank) 来 估计 经 验 Copula 密度 函数 ， 如 下 


ad 
F(xi) = a 1(xi < cj), (6) 


t=1 


其 中 10) 表示 示 性 函数 。 

在 得 到 经 验 Copula 密度 函数 后 , 第 2 E ARA, 有 很 多 方 
法 可 以 采用 。 我 们 采用 了 Kraskov % [186] 提出 的 k 近邻 法 来 估计 CE, AWE 
是 一 个 非 参 数 方法 ， 具 有 良好 的 估计 性 能 。 

由 于 在 两 步 中 都 采用 了 非 参数 的 方法 (次 序 统计 量 和 k 近邻 法 )， 因 此 ,我 
们 就 得 到 了 一 个 非 参 数 的 CE 佑 计 方 法 。 方 法 简单 ， 易 于 实现 ， 且 计算 量 要 求 
较 低 。 此 方法 是 一 个 典型 的 基于 序数 (rank) 统计 量 的 非 参数 估计 方法 ， 将 CE 
AE BH HI AR AR PA AI AEP OI, PRA 
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3.1 结构 学 习 


从 数据 分 析 一 组 随机 变量 之 间 的 关联 结构 ， 可 以 帮助 我 们 了 解 系统 内 部 的 
内 在 结构 关联 性 , 具有 重要 的 应 用 价值 。 在 统计 和 机 器 学 习 学 习 中 ,表示 这 种 关 
联结 构 的 主要 工具 方法 是 图 (Graph), ， 图 中 的 顶点 表示 随机 变量 ， 顶 点 之 间 的 
边 表示 变量 之 间 的 关联 ， 边 的 权重 表示 关联 的 强度 。 图 又 分 为 有 向 图 和 无 向 图 ， 
前 者 的 边 具有 方向 而 后 者 则 无 方向 ， 前 者 表示 变量 之 间 的 因果 关系 而 后 者 表示 
关联 关系 。 从 数据 中 学 习 这 种 关联 图 结构 的 问题 ， 被 称 为 结构 学 习 (Structure 
Learning). 
结构 学 习 的 算法 很 多 ， 其 中 比较 著名 的 有 Chow-Liu 的 图 结构 学 习 方法 
.该 方法 通过 学 习 变量 的 互信 息 和 矩阵 ,再 基于 矩阵 学 习 最 小 生成 树 (Minimal- 
Spanning-Tree: MST) 来 得 到 主要 关联 结构 的 骨架 。 
利用 互信 息 和 CE 的 等 价 性 ， 我 们 给 出 了 Chow-Liu 算法 的 CE 版 本 f, 
包含 两 步 : 


1. 利用 CE 合计 方法 学 习 得 到 随机 变量 的 关联 矩阵 ; 
2. 再 利用 MST 生成 算法 从 上 述 矩 阵 得 到 关联 图 结构 。 


由 于 我 们 的 CE 估计 方法 简单 有 效 , 相 较 于 传统 的 互信 息 估计 具有 明显 优势 , 因 
此 也 使 得 Chow-Liu 算法 更 可 靠 有 效 。 

我 们 将 算法 应 用 到 两 个 经 典 的 UCI 机 器 学 习 数据 集 (Les): 鲍鱼 生长 数据 
和 波士顿 房价 数据 集 。 实 验 结果 显示 ， 算 法 能 够 得 到 具有 可 解释 性 的 关联 结 


pid 
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构 ， 使 我 们 对 数据 反映 的 鲍鱼 生长 特性 和 波士顿 房价 相关 因素 的 内 在 关系 有 了 
更 深入 的 理解 。 


3.2 ”关联 发 现 

经 验 科 学 是 分 析 数 据 的 学 问 。 通 过 分 析 收 集 的 观察 或 经 验 数据 ， 人 们 得 出 
对 象 系统 的 科学 结论 。 关 联 的 概念 是 多 元 统计 分 析 的 基本 工具 之 一 。 它 度量 
随机 变量 之 间 的 统计 性 内 在 联系 ， 进 而 被 赋予 科学 意义 。 发 现 关联 关系 是 科学 
研究 的 主要 内 容 方 法 之 一 。 

Pearson 相关 系数 [1] 是 一 种 统计 学 史上 重要 的 相关 性 度量 概念 ， 教 科 书 里 
都 会 讲 到 , 应 用 也 很 广泛 。 但 由 于 它 是 统计 学 早期 提出 的 概念 , 因此 具有 很 多 局 
限 性 。 从 理论 上 来 讲 ， 它 只 适用 于 线性 相关 关系 的 情况 ， 隐 含 着 高 斯 分 布 的 假 
设 , 使 它 在 绝 大 多 数 实际 情况 中 都 不 适用 。 它 是 一 个 二 变量 的 度量 , 没有 多 变量 
的 版 本 。 

CE 则 是 一 种 更 高 级 的 相关 性 度量 , 相对 于 Pearson 相关 系数 具有 显著 的 优 
势 。 它 没有 线性 和 高 斯 性 的 假设 ， 且 是 一 个 多 变量 的 相关 性 度量 。 实 际 上 ，CE 
度量 的 是 统计 独立 性 ， 比 相关 性 更 宽泛 的 概念 ， 在 统计 独立 的 情况 下 ， 其 为 0。 
CE 还 具有 单调 变换 不 变性 ， 且 在 高 斯 分 布 的 情况 下 ， 与 相关 系数 等 价 。 简 单列 
一 下 CE 作为 相关 性 度量 的 优点 : 


无 模型 假设 ， 

可 处 理 非 线性 关系 ， 
统计 独立 性 度量 ， 
单调 变换 不 变性 ， 
。 在 高 斯 情况 下 与 相关 系数 等 价 。 


综合 了 如 此 多 优点 ，CE 是 一 个 完美 的 相关 性 度量 ， 完 全 可 以 蔡 代 Pearson 相关 
系数 ， 适 用 于 任何 类 型 的 相关 性 度量 。 Pearson 相关 系数 作为 一 个 历史 悠久 的 统 
计 工 具 ， 可 以 进入 历史 了 。 

关于 CE 与 Pearson 相关 系数 的 理论 上 的 对 比 ， 可 参见 论文 Bl. WE 
用 著名 的 NHANES 医学 体检 数据 也 8 多 ， 从 实验 上 证 明了 CE 的 显著 优越 性 目 。 


3.3 变量 选择 
变量 选择 (Variable Selection), ， 又 称 特征 选择 ， 是 统计 和 机 器 学 习 的 基本 
问题 909 相 。 当 人 们 试图 从 一 组 自 变 量 和 目标 预测 变量 之 间 建 立 函数 关系 时 ， 


2 实验 代码 : https://github.com/majianthu/dse 
3 实验 代码 : https://github.com/majianthu/nhane 
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往往 希望 只 选择 真正 与 目标 变量 有 内 在 联系 的 自 变 量子 集 作为 函数 模型 的 输入 ， 
以 提高 模型 的 科学 性 (或 可 解释 性 )， 同 时 降低 模型 的 复杂 度 。 这 样 的 问题 称 为 
变量 选择 。 在 统计 和 机 器 学 习 中 ， 变 量 选择 主要 用 于 多 元 分 类 或 回归 分 析 中 建 
立 的 函数 模型 关系 。 

传统 的 变量 选择 方法 很 多 , 主要 的 有 准则 法 、 模型 正则 化 方法 和 关联 度量 
法 。 主 要 的 准则 法 有 AIC [192] 和 BIC [193] 等 ， 通 过 在 似 然 函 数 上 加 上 对 模型 
复杂 度 的 惩罚 项 得 到 。 模 型 正则 化 方法 主要 用 于 广义 线性 回归 模型 , 在 学 习 模 型 
的 过 程 中 , 通过 在 似 然 函数 上 加 上 模型 参数 (线性 系数 ) 的 1 范 数 或 2 范 数 或 二 
者 的 组 合 得 到 , 经 典 的 方法 包括 LASSO [194]. 岭 回归 (Ridge Regression) [195] 
和 弹性 网 络 (Elastic Net) [196] 等 。 以 上 两 类 方法 都 是 基于 似 然 函 数 加 惩罚 项 
的 形式 完成 变量 选择 ， 都 是 模型 有 关 的 。 关 联 度量 的 方法 则 是 通过 自 变量 和 目 
标 变量 之 间 的 关联 强度 来 选择 变量 ， 通 常 是 模型 无 关 的 。 主 要 的 关联 关系 度量 
包括 传统 的 Pearson 相关 系数 , 但 它 只 能 度量 线性 关系 ， 仅 适用 于 线性 模型 。 其 
它 几 个 主要 的 非 线性 关联 度量 也 都 被 应 用 到 变量 选择 问题 上 ， 包 括 希 尔 伯 特 - 施 
密 特 独立 性 准则 (Hilbert-Schmidt Independence Criterion: HSIC) (197 198) 和 
距离 相关 (Distance Correlation: DC) (199) 200] oF 

变量 选择 问题 ,推荐 CE 方法 , 不 建议 LASSO 或 者 p-value 等 传统 统计 方 
法 。 本 方法 利用 CE 度量 自 变量 和 目标 变量 之 间 的 关联 强度 ， 根 据 强 度 从 大 到 
小 依次 选择 变量 。 在 变量 选择 问题 上 ，CE 已 被 真实 数据 实验 证 明 优 于 以 下 主流 
变量 选择 方法 : 


e LASSO / Ridge Regression / Elastic Net [194-199] 

+ AIC / BIC [192.193], 

+ Adaptive LASSO [poi], 

。 Hilbert-Schimdt Independence Criterion (HSIC) [197,198], 


e Distance Correlation [199, Bog], 


。 Heller-Heller-Gorfine Tests of Independence pod, 


e Hoeffding’s D test [pos], 


+ Bergsma-Dassios T* sign covariance [204], 


0 


Tr 


e Ball correlation [205]. 
实验 采用 了 著名 的 UC OM [ss], 将 CE 方法 与 以 上 方法 进行 对 比 。 
该 数据 集 包含 了 来 自 世界 4 地 的 病人 临床 生理 测量 数据 和 诊断 结果 ， 用 来 研究 
如 何 从 生理 特征 预测 心脏 病 诊 断 结 果 。 其 中 部 分 临床 特征 已 被 专家 认定 为 是 疾 
ET 
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病 相 关 特 征 , 这 就 为 验证 变量 选择 方法 提供 了 一 个 参照 标准 。 实 验 结果 表明 ,与 
其 他 方法 相 比 ，CE 方法 选择 出 了 最 多 的 疾病 相关 特征 ， 在 预测 性 和 可 解释 性 上 
优势 明显 。 部 分 对 比 结果 见 医 四。 

CE 为 变量 选择 问题 提供 了 统一 的 理论 框架 。 它 具有 以 下 优点 : 

。 模型 无 关 ， 

。 数 学 理论 坚实 ， 

。 物 理 上 可 解释 ， 

。 具 有 非 参 数 估计 算法 ， 不 做 理论 假设 ， 

。 几乎 不 需要 调 参 。 

该 方法 做 变量 选择 是 模型 无 关 的 ， 这 是 与 基于 似 然 函 数 的 方法 相 比 ， 方 法 
无 需 考 虑 模型 及 其 复杂 度 等 因素 ， 具 有 明显 的 普 适 性 优势 。 作 为 一 种 关联 度量 
TA, CE 与 其 他 度量 工具 相 比 定义 更 坚实 ， 具有 很 多 理想 的 独立 性 度量 公理 属 
性 ， 因 此 也 就 具有 了 明显 的 理论 优势 。 另 外 ， 是 一 种 物理 意义 明确 的 数学 概 
念 ，CE 可 被 认为 是 从 自 变 量 到 目标 变量 的 函数 关系 包含 的 信息 量 ， 因 此 很 容易 
从 物理 上 理解 和 解释 得 到 的 模型 。 在 方法 实现 上 ，CE 的 估计 方法 基于 序数 统计 
量 ， 是 非 参 数 的 ， 不 做 任何 理论 假设 ， 充 分 发 挥 了 其 理论 优势 。 同 时 ， 其 估计 方 
法 具有 良好 的 渐 近 稳定 性 ， 且 几乎 不 需要 调 参 ， 与 LASSO 等 结果 严重 依赖 超 
$ 


将 变量 选择 问题 变 成 了 一 种 科学 ， 而 不 像 LASSO 等 方法 是 一 门 艺术 。 

生存 分 析 (Survival Analysis) 是 一 类 特殊 的 回归 问题 ， 其 预测 目标 是 事件 
发 生 时 间 (time-to-event) ， 也 即 是 未 来 某 一 事件 发 生 所 需要 的 时 间 。 这 类 问题 
的 特殊 性 还 在 于 一 种 删 失 (Censoring) 机 制 ， 用 于 当 某 一 事件 在 观察 期 未 发 生 
时 的 处 理 。 生 存 分 析 在 医学 、 可 靠 性 和 社会 科学 等 领域 具有 广泛 的 应 用 。 建 立 
生存 分 析 模型 也 需要 进行 变量 选择 ， 用 于 筛选 与 事件 发 生 时 间 相关 的 变量 。 马 
健 [7] 提出 将 CE 的 变量 选择 方法 应 用 于 此 类 问题 ， 通 过 计算 变量 与 事件 发 生 
时 间 之 间 的 CE 来 选择 变量 。 他 将 方法 应 用 于 两 个 公开 的 肺癌 数据 ， 与 常用 的 
随机 生存 森林 (Random Survival Forest) 和 Lasso-Cox 两 种 方法 进行 了 对 比 ， 
发 现 该 方法 能 够 在 保证 模型 可 解释 性 的 同时 获得 更 好 的 预测 性 能 ， 验 证 了 方法 
fio cep, 


3.4. 因果 发 现 


因果 关系 普 凯 存在 于 自然 界 当 中 ， 发 现 因果 关系 是 各 门 科学 的 主要 命题 之 
一 。 从 一 组 随机 变量 的 时 序 观测 中 发 现 变量 之 间 的 因果 关系 ， 被 称 为 因果 发 现 


5 实验 代码 : https://github.com/majianthu/surviva 
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(Causal Discovery) 问题 ， 是 统计 学 中 时 间 序列 分 析 的 经 典 问题 。 时 序 因果 关系 
发 现 方法 在 不 同学 科 领 域 都 有 重要 应 用 价值 。 

如 何 度量 因果 关系 是 因果 发 现 问题 解决 的 基础 。 控 制 论 学 者 维 纳 提出 了 一 
种 因果 关系 的 哲学 概念 ， 表 述 为 因 必须 有 助 于 改善 果 的 预测 06|。 在 此 理念 基 
础 上 , 格 兰 杰 提 出 了 著名 的 格 兰 杰 因果 关系 (Granger Causality: GC) 检验 (207, 
.GC 检验 是 经 典 的 因果 发 现 工具 ,但 它 只 适用 于 高 斯 的 情况 .Schreiber [209] 
定义 了 用 于 发 现 稳 态 时 序 包含 的 因果 关系 的 传递 炉 (Transfer Entropy: TE) 的 概 
¿ho TE 是 GC 的 非 线性 推广 , 等 价 于 信息 论 的 条 件 互 信息 (Conditional Mutual 
Information: CMI), ， 本 质 上 是 检验 条 件 独 立 性 (Conditional Independence) , 
是 模型 无 关 的 ， 因 此 适用 于 任何 情况 的 因果 关系 检验 。TE 作为 广泛 采用 的 因果 
关系 度量 ， 较 之 其 他 经 验 式 带 有 模型 假设 的 传统 因果 关系 推断 方法 更 科学 合理 ， 
具有 更 广泛 的 普 适 性 。 

CE 是 统计 独立 性 度量 , 而 TE 是 条 件 独立 性 度量 。 我 们 证 明了 二 者 之 间 在 
数学 上 有 着 本 质 上 的 内 在 理论 联系 [10] . 通过 并 不 复杂 的 数学 变换 ， 可 以 很 容易 
TEM, TE 可 以 表示 为 只 包含 CE 的 数学 形式 。 这 一 数学 表示 形式 为 从 CE 估计 
TE 提供 了 理论 基础 。 


命题 1 TE 可 以 表示 为 仅 包含 CB 的 数学 形式 . AXE Ya TEM CE 表示 
如 下 : 
TE xy = He(Ye41,¥) + HS, Y) — Hn a, Y, Xt). (7) 


因为 TE AJ EIA You 由 XY, 的 度量 ， 因 此 全 也 其 实 是 给 
出 了 一 种 条 件 独 立 性 的 CE 表示 。 

在 过 去 的 研究 中 ， 因 果 关 系 的 估计 往往 是 在 一 定 的 假设 前 提 下 进行 ， 无 假 
设 前 提 的 因果 关系 估计 被 很 多 研究 者 认为 是 不 可 能 的 。 我 们 基于 以 上 TE 的 CE 
表示 形式 ， 利 用 非 参数 的 CE 估计 算法 ， 提 出 了 一 种 简单 优雅 、 易 于 理解 和 实 
现 的 非 参 数 TE 估计 方法 由 中。 这 样 ， 不 带 任何 假设 条 件 的 因果 关系 发 现 就 成 
为 了 可 能 。 此 估计 方法 包含 简单 的 两 步 四 : 


1. 利用 非 参 数 CE 估计 方法 ， 估 计 式 刷 中 的 3 个 CE 子 项 ; 
2. 由 3 个 CE 估计 值 计算 得 到 TE. 


为 了 验证 提出 的 非 参 数 TE 估计 方法 ， 我 们 将 该 方法 应 用 于 大 气 污染 问题 
中 的 因果 发 现 , 研究 了 北京 地 区 气象 因素 和 PM2.5 之 间 的 因果 关系 回 实验 采用 
T UCT 机 器 学 习 数据 集 仓 库 中 的 北京 PM2.5 数据 Bi， 包含 了 北京 地 区 2010 
年 至 2014 年 之 间 的 每 小 时 的 连续 气象 观测 数据 和 PM2.5 观测 数据 。 我 们 的 分 
析 选 择 其 中 一 段 无 缺失 值 的 连续 时 间 数 据 记 录 ， 利 用 上 述 方法 很 容易 就 可 以 佑 
计 出 气象 因素 对 1 至 24 小 时 后 PM2.5 浓度 的 影响 程度 。 利 用 上 述 估计 方法 


6 此 方法 已 在 R 和 Python 的 copent 包 [185 中 实现 。 
7 实验 代码 : | ttps://github.com/majianthu/transferentrop 


= 
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不 是 无 条 件 的 ， 我 们 默认 假设 了 时 序 是 稳 态 的 ， 也 假设 了 时 间 段 之 间 的 马尔 科 
AVE, 也 就 是 不 相 邻 的 时 间 段 之 间 无 关 。 对 24 小 时 内 沾 后 因果 关系 的 分 析 发 现 ， 
温度 、 湿 度 、 压 力 等 气象 因素 对 PM2.5 的 形成 的 因果 关系 是 一 个 由 迅速 增加 到 
缓慢 增强 的 过 程 。 

同样 在 上 述 实验 数据 的 基础 上 ， 我 们 将 提出 的 TE 估计 方法 与 另外 两 种 条 
件 独立 性 度量 进行 了 对 比 实验 , 估计 从 气象 因素 到 PM2.5 的 因果 关系 24 小 时 走 
势 。 这 两 种 度量 分 别 是 基于 核 函 数 的 条 件 独 立 性 度量 (Kernel-based Conditional 
Independence: KCI) 211 和 条 件 距离 相关 (Conditional Distance Correlation: 
CDC) P12]. 论文 通过 将 用 CE 估计 TE 与 其 它 两 种 方法 进行 了 对 比 , 结果 ( 见 
WB) 显示 TE 的 估计 效果 更 好 。 


3.5 ”系统 辨识 


微分 方程 是 描述 动态 系统 的 主要 数学 工具 , 在 不 同学 科 具 有 广泛 的 应 用 。 从 
数据 中 学 习 微 分 方程 是 动态 系统 领域 的 一 个 重要 问题 ， 也 称 系统 辨识 或 方程 发 
现 ， 近 年 来 得 到 了 大 量 的 研究 。 

方程 发 现 问题 通 常 可 以 被 当 作 一 个 回归 问题 来 对 待 ， 即 从 数据 学 习 一 组 从 
系统 状态 到 状态 微分 的 回归 方程 。 给 定 一 个 一 般 的 动态 系统 微分 方程 形式 ， 如 
下 : 


Ci = 161) (8) 
其 中 sui = 1,...,N OA 
从 数据 辨识 f; 需要 确定 该 方程 包含 的 未 知 自 变 量 ， 一 旦 自 变 量 确定 则 方程 的 对 
应 关系 就 知道 了 ， 这 是 典型 的 变量 选择 问题 。 很 多 经 典 回归 模型 方法 被 应 用 到 
此 问题 ， 如 高 斯 过 程 、 基 于 稀疏 性 的 方法 (如 SINDy)、 核 函数 方法 和 神经 网 络 
等 


Fyfe [L6] 提出 了 一 种 基于 CE 的 微分 方程 发 现 方法 ， 将 问题 理解 为 变量 选 
择 问 题 ， 利 用 基于 CE 的 变量 选择 方法 解决 了 此 方程 发 现 问题 。 该 方法 包含 了 
两 个 主要 步 又: 


1. 利用 差分 算 子 近似 计算 状态 变量 的 微分 ; 
2. 计算 状态 微分 和 状态 变量 之 间 的 CE, fiis CE 来 选择 方程 的 变量 。 
该 方法 中 的 差分 算 子 可 以 由 以 下 非 参 数 方式 计算 得 到 : 


= 


dx Lt, — Ttg 
— = = " 9 
dr tto ire (9) 


而 CE 可 以 由 非 参 数 估计 方法 得 到 。 因 此 ， 所 提出 的 方法 是 非 参 数 的 ， 不 做 任 
何 假设 ， 适 用 于 任何 动态 系统 的 辨识 。 
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2: 由 三 种 因果 关系 度量 估计 的 从 压力 到 PM2.5 的 因果 关系 强度 变化 图 . 
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作者 将 方法 应 用 于 经 典 的 3 维 Lorenz 系统 ,系统 中 包含 了 由 一 阶 和 二 阶 的 
a 3 个 方程 ， 该 方法 成 功 地 从 仿真 数据 中 辨识 出 了 系统 方程 中 状 
态 \ 态 微分 变量 之 间 的 关系 ， 证 明了 方法 的 有 效 性 8。 


mS 


= 
4 : 


3.6 ”时 延 估计 


系统 辨识 (System Identification) 是 现代 系统 理论 中 研究 系统 特性 的 重要 
工具 方法 , 主要 是 研究 如 何 从 观测 数据 来 确定 描述 系统 行为 的 模型 及 其 参数 。 时 
WE (Time Lag) 是 一 种 动态 系统 中 普遍 存在 的 特性 ， 指 一 个 变量 作用 于 另 一 个 
变量 需要 的 时 间 。 由 于 物质 、 能 量 或 信息 的 传输 时 间 ， 时 延 存在 于 所 有 物理 、 社 
会 和 生物 系统 中 的 因果 效应 发 生 的 时 间 先 后 关系 上 。 因 此 ， 时 延 参 数 的 估计 是 
重要 的 理论 问题 ， 具 有 广泛 的 应 用 价值 ， 比 如 可 以 用 来 分 析 交 通 系统 中 的 拥堵 
传播 、 太 阳 活 动 对 地 球 系统 的 影响 、 政 策 效应 的 分 析 等 诸多 问题 。 

传统 的 时 延 估计 的 主要 方法 是 基于 时 序 变量 的 自 相 关系 数 ， 但 其 具有 线性 
假设 ， 因 此 作用 范围 十 分 有 限 。 另 一 种 主要 方法 是 时 延 互 信息 (Time-delayed 

MI), 可 以 去 除 线性 假设 的 限制 ,适用 于 具有 非 线性 特性 的 时 序 变 量 。 但 这 两 种 
方法 本 质 上 都 是 对 称 关系 的 度量 ， 而 系统 时 延 由 于 是 因果 关系 的 属性 ， 因 此 是 
非 对 称 的 关系 。TE 作为 一 种 非 对 称 的 因果 关系 度量 ， 量 化 了 从 因 变 量 到 果 变量 
作用 关系 的 信息 量 ， 因 而 更 适用 于 估计 因果 时 延 特性 。 

动态 系统 的 时 延 可 以 通过 从 时 序数 据 估计 TE 统计 量 来 进行 估计 ， 但 传统 
的 TE 估计 问题 被 认为 十 分 困难 。 马 健 [15] 提出 利用 上 述 基 于 CE 的 TE 估计 
方法 来 解决 时 延 估计 问题 ， 先 估计 时 延 窗 口内 的 因 变 量 到 果 变量 的 一 组 TE 值 ， 
再 将 TE 的 最 大 值 对 应 的 时 延 作 为 时 延 参 数 的 值 。 由 于 该 TE 估计 器 是 非 参 数 
的 ， 因 此 不 对 动态 系统 做 任何 假设 ， 具 有 普 适 性 。 

作者 仿真 了 四 个 具有 不 同 动态 特性 的 时 延 动态 系统 以 验证 方法 的 有 效 性 
发 现 该 方法 可 以 准确 地 从 系统 的 仿真 数据 中 估计 出 相应 的 时 延 参数 。 作 者 又 ; 
方法 应 用 于 摩洛哥 缔 头 万 (Tétouan) 城 的 电力 负荷 数据 ， 分 析 五 种 天 气 因素 》 
该 城 三 个 区 域 电力 负荷 影响 的 时 延 特征 ， 发 现 了 不 同 天 气 因素 对 负荷 产生 影 
的 时 延长 度 ， 以 及 影响 的 每 日 变化 特征 四 


F 


aR 


c 


ab 


3.7 WARM 


域 自 适 应 (Domain Adaptation: DA) 是 一 类 常见 的 问题 , 是 指 训练 模型 的 
数据 与 应 用 模型 的 数据 的 概率 分 布 不 同时 ， 需 要 让 训练 的 模型 适应 分 布 的 偏 移 
的 情况 。DA 问题 具有 重要 的 现实 意义 。 比 如 ,将 在 一 个 医院 采集 的 数据 上 训练 
好 的 模型 应 用 到 其 他 医院 时 ， 可 能 由 于 数据 采集 设备 的 不 同 导致 采集 的 数据 发 
生 分 布 偏 移 ， 从 而 导致 模型 性 能 下 降 。 同样 的 情况 也 会 发 生 在 其 他 领域 (如 社会 


8 实验 代码 : https://github.com/majianthu/sysid 
9 实验 代码 : https://github.com/majianthu/timelag 


3 理论 应 用 19 


学 ) 的 问题 中 ,比如 由 于 人 群 的 社会 属性 的 不 同 , 由 一 个 人 群 研究 得 到 的 模型 结 
论 在 男 一 个 人 群 上 就 会 发 生 模 型 偏差 。 

于 CE 的 条 件 独立 性 度量 作为 一 种 基本 的 统计 学 工具 , 可 以 用 于 解决 DA 
问题 。 马 健 [ni] 提出 了 一 种 从 因果 角度 解决 DA 问题 的 方法 。 他 假设 自 变量 X 
到 预测 变量 Y 在 不 同 域 Di 上 的 关系 是 不 变 的 ， 将 数据 分 布 迁移 视 为 一 个 由 外 
在 条 件 变量 Z 在 Di 上 作用 不 同 导致 的 结果 ， 这 样 DA 问题 就 转化 为 学 习 自 变 
EX, MZA Y 和 外 在 变量 Z 之 间 统 计 关 系 的 问题 ， 需 要 发 现 X,Y 之 间 不 
变 的 依赖 关系 ， 二 者 的 依赖 关系 以 外 在 变量 为 条 件 ， 即 判断 是 否 


X JA. Y|Z. (10) 


这 时 ， 利 用 基于 CE 的 条 件 独立 性 测试 就 能 发 现 域 迁 移 条 件 Z 背后 的 六 和 了 
之 间 不 变 的 因果 关系 ， 从 而 很 好 地 解决 了 DA 问题 。 

作者 设计 了 仿真 实验 验证 了 方法 的 有 效 性 ， 并 将 方法 成 功 应 用 于 社会 学 的 
男女 收入 不 平等 的 社会 原因 分 析 问题 


3.8 正 态 性 检验 


正 态 分 布 是 一 类 非常 重要 的 概率 分 布 函数 ， 在 所 有 概率 函数 中 居于 中 心地 
位 ， 且 在 实际 问题 中 大 量 存在 。 正 态 性 是 很 多 统计 模型 和 方法 中 的 假设 条 件 ， 
因此 在 应 用 中 检验 分 布 正 态 性 的 方法 成 为 了 一 个 十 分 必要 的 工具 。 正 态 性 检验 
(Normality Test) 是 一 类 检验 分 布 正 态 性 假设 的 假设 检验 方法 ， 分 为 单 变量 和 
多 变量 两 类 。 传统 的 正 态 性 检验 方法 很 多 ， 比 如 基于 和 矩 、 特 征 函 数 、 信 或 最 优 传 
输 等 概念 工具 的 方法 等 。 

CE 作为 衡量 变量 间 全 阶 次 相关 关系 的 度量 工具 , 也 可 以 用 于 检验 二 阶 相关 
FRENTE A. RANA, REO, 在 二 阶 统 计量 相同 的 情 
况 下 ， 在 所 有 分 布 中 正 态 分 布 的 烂 最 大 。 由 于 正 态 分 布 完 全 由 其 一 阶 和 二 阶 统 
计量 决定 ， 因 此 正 态 分 布 的 CE 中 包含 的 是 二 阶 相关 性 对 应 的 信息 。 可 以 很 容 
DEF, 在 正 态 分 布 的 条 件 下 ，CE 与 二 阶 统 计量 具有 等 价 关 系 。 具 体 地 ， 假 设 
高 斯 随机 向 量 X AIT FEN Va, WWE CE 与 V. 之 间 存在 如 下 关系 : 


1 
H.(xn) = z les WAR (11) 


而 在 非 正 态 分 布 中 , 相关 关系 不 仅 是 二 阶 的 ,也 有 高 阶 的 ,因而 CE 包含 的 信息 
除了 二 阶 相关 关系 对 应 的 信息 外 ， 也 有 高 阶 相关 关系 对 应 的 信息 ， 且 非 高 斯 性 
越 强 ，CE PRGA Aw. HI, PRAWN oe, Alt CE 
度量 了 包括 二 阶 相关 信息 在 内 的 全 部 阶 次 相关 性 信息 。 

马 健 [12] 利用 高 斯 分 布 的 CE 与 二 阶 统 计量 之 间 等 价 关 系 提出 了 一 种 多 变 
量 正 态 性 检验 的 方法 ， 通 过 计算 分 布 与 同方 差 的 高 斯 分 布 在 CE 统计 量 的 差 值 


10 实 验 代码 : https://github.com/majianthu/cda 
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来 衡量 联合 分 布 的 正 态 性 ， 由 此 得 到 的 正 态 性 检验 的 统计 量 定义 为 


Tee = H.(x) = H.(Xn), (12) 


Hob, x, 是 与 x 具有 相同 方差 的 高 斯 随机 向 量 。 易 知 ， 当 分 布 为 高 斯 分 布 时 
Too = 0; 且 多 元 分 布 的 非 高 斯 性 越 强 ，T。 的 数值 越 大 。 

马 健 同 时 给 出 了 此 统计 量 的 估计 方法 , 包括 了 十 分 简单 的 两 部 分 : st (p 
第 一 项 可 以 由 CE 的 非 参数 估计 方法 得 到 , 第 二 项 即 是 式 由 四 的 值 , 可 先 估计 协 
方差 矩阵 V. 再 解析 计算 得 到 。 

作者 设计 了 两 组 仿真 实验 ， 仿 真 了 两 类 非 高 斯 性 的 情况 ， 并 将 此 检验 方法 
与 5 种 经 典 的 同类 方法 进行 了 对 比 ， 证 明了 此 检验 方法 的 有 效 性 和 对 传统 5 种 
rnt good, 


3.9 双 样 本 检验 


双 样 本 检验 (Two-sample test) 是 统计 学 中 另 一 类 重要 的 假设 检验 方法 , 用 
于 测试 两 组 样本 是 否 来 自 同 一 个 分 布 函数 。 很 多 统计 学 的 理论 方法 可 以 转化 成 
双 样 本 检验 问题 ， 如 对 称 性 测试 就 可 以 转化 成 检验 对 称 变换 的 样本 是 否 同 分 布 
的 问题 ， 又 如 变 点 检测 (Change Point Detection) 其 实 就 是 寻找 一 组 双 样 本 检 
测 中 样本 间 差 异 最 大 的 点 。 同时, 双 样 本 检验 又 具有 广泛 的 应 用 价值 ， 比 如 可 以 
检测 临床 治疗 、 政 策 实施 等 人 为 干预 前 后 目标 变量 是 否 发 生 了 变化 等 。 常 见 的 
双 样 本 检验 方法 很 多 ， 如 双 样 本 T 检验 ，K-S 检验 和 基于 核 函 数 的 检验 等 。 但 
这 些 方法 都 有 各 自 的 不 足 之 处 ， 比 如 T 检验 需要 正 态 分 布 假设 ，K-S 检验 只 能 
作用 于 单 变 量 情况 ， 而 核 函数 方法 需要 超 参 数 的 调试 等 。 

ug [13] 提出 了 一 种 基于 CE 的 双 样 本 检验 方法 , 思想 是 基于 样本 与 检验 标 
注 之 间 的 相关 性 程度 来 定义 检验 统计 量 。 给 定 两 组 样本 Xo = {X01,… Xom} ~ 
Po 和 Xi 一 {X11,… ,六 In} ~ 中 ， 该 检验 的 零 假设 为 


= 


Ho: Po = Fr, (13) 


对 立 假设 为 
Hı : Po AP. (14) 


Tee = H.(X, Yo) — H AX, Yi). (15) 


BAM, 4 Ho AAW, Toe 较 小 ; 而 当 Hi 为 真 时 ， 则 较 大 。 作 者 给 出 了 基于 CE 
非 参 数 估计 的 统计 量 舍 计 方法 。 因 此 ,该 检验 方法 是 多 变量 非 参 数 检验 ， 且 无 需 


llamo (tis: https://github.com/majianthu/mvnt 
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调 参 。 作 者 在 3 组 由 正 态 分 布 和 正 态 Copula 仿真 的 数据 上 验证 该 方法 的 有 效 
性 ， 并 将 方法 与 基于 MI、 核 函数 和 dCor 的 三 种 多 变量 非 参数 检验 方法 进行 了 
对 比 ， 发 现 该 方法 有 效 检验 了 仿真 实验 中 的 双 样 本 假设 ， 与 同类 方法 相 比 具有 
同等 或 更 好 的 检验 性 能 四。 


3.10 ” 变 点 检测 


变 点 检测 (Change Point Detection) 是 统计 学 中 一 个 典型 的 时 间 序列 分 析 
任务 ， 是 指 在 一 个 时 间 序 列 中 检测 发 生 的 系统 状态 突变 。 检 测 问题 可 以 是 离线 
检测 或 在 线 检测 ， 单 点 检测 或 多 点 检测 ， 检 测 对 象 可 以 是 单 变量 数据 或 多 变量 
数据 。 问 题 在 上 个 世纪 50 年 代 就 被 提出 ， 经 过 长 时 间 的 研究 ， 目 前 已 经 提出 了 
量 的 检测 算法 。 变 点 检测 的 应 用 领域 十 分 广泛 ， 可 以 用 于 检测 自然 系统 、 生 命 
系统 、 社 会 系统 、 或 工业 系统 中 发 生 的 各 种 突变 。 

变 点 检测 问题 可 以 转化 为 双 样 本 检验 问题 ， 即 在 时 间 序列 的 每 个 点 上 ， 对 
该 点 前 后 的 数据 做 双 样本 检验 测试 ， 检 验 统计 量 最 大 的 点 即 可 认为 是 发 生 了 状 
态 改变 的 变 点 。Ma [L4] 根据 这 一 原理 ， 利 用 B. 跨 到 的 基于 CE 的 双 样本 检验 ， 
提出 了 一 种 非 参 数 多 变量 的 单 变 点 检测 方法 ， 继 而 又 结合 单 变 点 检验 方法 和 二 
分 割 策略 提出 了 一 种 多 变 点 检测 方法 ， 该 方法 包括 以 下 步 又 : 


- 对 待 检 测 时 间 序列 进行 单 变 点 检测 ; 
. 若 检测 的 统计 量 大 于 设 定 的 阁 值 ， 则 将 检测 到 的 变 点 前 后 序列 分 别 加 入 待 
检测 时 间 序 列 ; 

3. 继续 进行 检测 ， 直 至 所 有 序列 检测 完毕 。 
方法 中 采用 阀 值 来 判断 茶 一 段 序列 上 是 否 存 在 变 点 ， 从 而 能 够 自动 估计 变 点 的 
个 数 。 他 在 一 组 仿真 数据 上 验证 了 方法 , 并 与 传统 经 典 方法 进行 了 对 比 , 证 明了 
该 方法 的 有 效 性 和 优越 性 ， 又 在 典型 的 变 点 检测 测试 数据 一 一 尼罗河 年 径流 数 


E 


N 


据 上 验证 了 方法 ， 结 果 该 方法 成 功 检测 到 了 数据 中 年 径流 变化 的 变 点 四 。 
4 讨论 


4.1 理论 应 用 之 间 的 联系 


以 上 介绍 的 CE 的 前 四 个 理论 应 用 之 间 有 着 内 在 的 联系 。 从 理论 基础 上 讲 ， 
它们 都 是 基于 CE 对 统计 独立 和 条 件 独立 的 度量 的 理论 框架 ， 学 习 某 种 内 在 的 
统计 关系 , 这 是 共同 点 。 区 别 在 于 这 四 个 应 用 研究 的 关系 不 同 ， 以 及 关联 结构 的 
表示 方式 不 同 。 关 联 发 现 问题 主要 关注 成 对 变量 之 间 的 静态 的 统计 相关 ， 表 示 
D 
"oer: 
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为 相关 矩阵 的 形式 ; 结构 学 习 则 关注 一 组 变量 之 间 整 体 的 关联 结构 ， 表 示 为 图 
的 形式 ; 变量 选择 的 目的 是 要 建立 一 个 多 对 一 的 关联 结构 ， 最 终 要 表示 为 函数 
的 形式 ; 时 序 因果 发 现 是 动态 系统 中 的 因果 关系 ， 它 也 可 以 构建 表示 变量 之 间 
因果 关系 的 有 向 图 结构 ， 也 可 以 用 来 进行 变量 选择 ， 构 建 时 序 预测 的 函数 关系 
模型 。 

总 之 ， 利 用 CE 度量 统计 独立 和 条 件 独立 关系 ， 可 以 估计 随机 变量 之 间 的 
相关 性 和 因果 性 关系 强度 ， 进 而 通过 相关 或 因果 关系 发 现 表示 成 基本 的 矩阵 形 
式 ， 通 过 结构 学 习 生 成 直观 的 无 向 或 有 向 图 的 形式 ， 或 者 通过 变量 选择 构造 具 
有 预测 能 力 的 静态 或 动态 时 序 的 函数 模型 的 形式 。 


4.0 ”相关 性 和 因果 性 


相关 性 和 因果 性 是 统计 学 中 的 两 个 基础 性 概念 ， 对 应 于 概率 论 中 的 统计 独 
立 和 条 件 独立 。 统 计 独 立 和 条 件 独立 是 两 个 不 同 的 概念 ， 但 又 有 着 内 在 的 联系 。 
我 们 通过 CE 的 概念 ， 给 出 二 者 之 间 的 内 在 联系 的 理论 框架 ， 以 及 在 此 理论 杠 
架 基础 上 的 估计 方法 。 
前 者 可 以 用 CE 来 衡量 。CE 是 一 个 完美 的 衡量 统计 独立 性 /相关 性 的 数学 
概念 ， 具 有 很 多 数学 家 梦 麻 以 求 的 独立 性 度量 的 公理 属性 。 它 等 价 于 信息 论 中 
的 MI 概念 。 后 者 可 以 用 TE 来 衡量 。TE 等 价 于 条 件 MI。 我 们 证 明了 TE 可 
以 用 CE 来 表示 。 也 就 是 说 ,条件 独立 可 以 通过 统计 独立 来 表示 和 计算 。 因 此 二 
者 之 间 具 有 内 在 的 理论 联系 。 后 者 可 以 用 TE 来 衡量 。TE 等 价 于 条 件 MI。 因 
此 ， 二 者 之 间 具 有 内 在 的 理论 联系 。 

相关 性 不 等 于 因果 性 ， 二 者 是 不 同 的 概念 ， 但 人 们 有 时 却 很 容易 误 把 二 者 
等 同 起 来 。 举 一 个 我 们 做 的 时 序 因果 发 现 的 研究 [10] 作为 例子 加 以 说 明 。 论文 
给 出 了 一 种 利用 CE 来 估计 TE 的 算法 ， 并 采用 了 一 个 环境 气象 的 数据 来 验证 
TE 估计 算法 和 中 。 数 据 是 北京 的 PM2.5 观测 数据 ， 以 及 同时 观测 到 的 北京 地 
区 气象 数据 。 论文 实验 分 析 了 气象 因素 (温度 、 露 点、 气压 和 风速 等 ) 对 PM2.5 
浓度 的 因果 强度 ， 用 从 时 序 观测 数据 中 估计 的 TE 来 衡量 ， 发 现 了 二 者 之 间 的 
因果 关系 变化 规律 。 

这 里 要 强调 的 是 论文 的 讨论 部 分 。 我 们 讨论 对 比 了 时 序 相 关 性 和 时 序 因果 
性 ， 发 现 即使 是 气象 因素 和 PM2.5 浓度 之 间 相 关 性 微弱 的 情况 下 ， 二 者 之 间 仍 
然 有 时 滞 因 果 关 系 。 论 文 以 温度 因素 为 例 (EB) ， 对 此 做 了 说 明 。 子 图 (a) 和 
(c) 分 别 对 应 TE 和 CE， 也 就 是 因果 性 和 相关 性 。 我 们 可 以 发 现 ， 相 关 性 强度 
几乎 为 0, 而 因果 性 强度 依然 很 高 。 

我 们 认为 ， 这 一 分 析 结 果 是 由 时 序 观测 的 对 象 系统 的 动态 性 造成 的 ， 气 象 
因素 对 PM2.5 浓度 变化 的 影响 不 是 即时 的 , 而 是 由 于 大 气 系统 的 内 部 运动 过 程 ， 
有 一 个 滞后 的 效应 所 致 。 此 时 ,时序 变量 之 间 没 有 即时 的 相关 关系 , 但 存在 时 湾 
的 因果 关系 。 


— 
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关联 


23 


4 讨论 24 
表 1: 三 种 统计 独立 性 度量 框架 的 对 比 . 
CE DC HSIC 
定义 基于 Copula 函数 相关 性 的 非 线性 扩 必 核 函 数 空间 的 相关 性 
多 变量 是 distance multivariance dHSIC 
不 变性 单调 变换 不 变 线性 变换 不 变 
Pearson 相关 | 高 斯 性 假设 下 等 价 高 斯 性 假设 下 等 价 
计算 复杂 度 O(n*) 
独立 性 检验 [199 p13] 
条 件 独立 性 检验 [212 
正 态 性 检验 [214] 
双 样 本 检验 [216] 
变 点 检测 - 
4.3 三 种 理论 框架 的 对 比 
我 们 提出 了 一 个 基于 CE 概念 , 能 够 将 独立 性 和 条 件 独立 性 两 个 基本 概念 相 


统一 的 理论 框架 .与 此 类 似 , 核 函数 的 方法 fos b 1] 和 距离 相关 的 方法 Pod p12] 


也 可 以 应 用 到 这 两 个 概念 的 度量 问题 上 ， 也 分 别 构成 了 类 似 的 理论 框架 。 
T CE 的 理论 框架 更 优越 ,理论 上 ，CE 的 定义 更 严格 ; 计算 上 ， 


计 方 法 也 更 简单 优雅 ， 普 遍 适 用 ， 


昌 计 算 量 相对 要 小 。 


但 基 
T CE 的 佑 


我 们 利用 表 由 寺 比 了 三 种 统计 独立 度量 概念 ， 可 以 看 到 CE 具有 多 方面 的 理 
论 优 势 。 比 如 ，CE 天 然 的 是 一 个 多 变量 的 度量 , 而 其 他 一 者 需要 通过 扩展 定义 


来 满足 多 变量 的 情况 ; CE 具有 单调 变换 不 变性 和 在 高 
价 等 属性 , 而 DC 也 


CE 计算 复杂 度 低 ， 而 其 他 二 者 则 
三 种 度量 框架 都 发 展 出 了 一 套 系统 的 方法 论 体 系 ， 包 含 了 独立 性 检验 、 条 


件 独立 性 检验 、 正 态 怕 


断 条 件 下 与 相关 系数 等 
具有 类 似 的 等 价 关 系 [199], HSIC 则 未 知 。 在 计算 成 本 上 ， 
具有 较 高 的 计算 复杂 度 。 


检验 、 双 样本 检验 和 变 点 检测 等 方法 。 在 变量 选择 和 因 


果 发 现 两 个 理论 应 用 中 ， 我 们 利用 真实 数据 对 比 三 种 框架 中 的 独立 性 测试 和 条 


件 独立 性 测试 方法 。 实 验 结果 表明 了 CE 框架 的 (条件 ) 独立 性 度量 工具 均 优 
于 其 他 两 个 框架 中 的 相应 的 工具 ， 能 够 更 高 效 、 准 确 地 发 现 更 多 的 相关 或 因果 
三 个 理论 框架 都 包含 有 正 态 性 检验 和 双 样 本 检验 等 假设 检验 方法 ， 但 基 


T CE 的 方法 理论 更 严格 ， 也 因此 在 仿真 数据 对 比 实验 上 表现 出 了 更 优越 的 检 


验 能 力 。CE 框架 和 核 函数 框架 都 
参数 变 点 检测 方法 ， 仿 真实 验 表明 ， 前 者 具有 更 优越 的 检 涡 


4.4 ”独立 性 和 条 件 独立 性 度量 的 评估 


独立 性 和 条 件 独 立 性 是 概率 统计 领域 的 基本 概念 


n. H 


y ZN 


于 各 自 的 双 样 本 检验 方法 发 展 出 了 多 变量 非 


性 能 。 


有 基础 性 的 重要 地 位 。 


从 统计 学 初期 的 皮尔 逊 相关 系数 开始 ， 如 何 度量 这 两 种 统计 学 的 概念 就 一 直 是 


本 学 科 关 注 的 


框架 的 方法 。 


焦点 问题 , 有 大 量 的 度量 方法 根据 不 同 的 思想 或 原则 被 提出 来 . 这 
其 中 ， 就 包括 上 述 的 CE 等 三 种 理论 


那么 哪 一 种 方法 是 最 理想 的 度量 呢 ? 理论 上 , 为 了 回答 此 问题 , Rényi |219| 
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曾经 提出 了 著名 的 独立 性 度量 的 公理 系统 , 包括 了 7 条 公理 。 Schweizer 和 Wolf 
(220) 在 提出 他 们 基于 Copula 的 度量 时 ， 对 Rényi 的 公理 系统 又 做 了 修正 。 
如 何 从 实验 的 角度 评估 对 比 这 些 度量 方法 是 一 个 重要 的 问题 。 马 健 B21) BE 
计 了 一 组 仿真 实验 四， 对 现 有 的 16 种 独立 性 度量 和 16 种 条 件 独立 性 度量 方法 
分 别 进行 了 对 比 (度量 方 法 及 实现 见 表 团 ， 仿 真实 验 考 虑 了 线性 / 非 线性 、 高 斯 
性 / 非 高 斯 性 、 单 变量 /多 变量 等 多 种 不 同 角度 的 组 合 。 同 时 ， 作 者 也 在 3 组 实 
际 数据 上 对 上 述 度量 的 性 能 进行 了 对 比 。 结 果 表 明 ， 基 于 CE 的 独立 性 和 条 件 
独立 性 度量 在 所 有 情况 中 都 表现 了 最 好 的 性 能 ， 给 出 了 最 合理 的 度量 估计 值 。 
总 之 ， 从 理论 的 角度 来 看 ，CE 具有 上 比 其 他 度量 方法 更 坚实 的 数学 基础 和 性 
能 良好 的 通用 非 参数 估计 方法 ; 从 仿真 和 实际 数据 实验 的 结果 来 看 ，CE 在 实验 
上 展现 了 全 面 且 最 好 的 估计 结果 。 因 此 ， 作 者 认为 CE 理论 给 出 了 最 为 理想 的 
独立 性 和 条 件 独立 性 度量 。 


5 实际 应 用 
5.1 理论 物理 学 


热力 学 是 一 门 古老 的 理论 物理 学 分 支 ， 在 19 世纪 由 克 劳 修 斯 、 波 尔 兹 曼 和 
吉 布 斯 等 人 建立 , 研究 物理 系统 的 宏观 状态 (如 温度 ) 与 其 微观 状态 之 间 的 理论 
联系 。 炉 和 热力 学 第 二 定律 是 其 最 为 核心 的 理论 内 容 。 香 农 的 信息 论 就 是 受热 
力学 的 焙 概 念 启发 而 建立 的 。 一 直 以 来 ， 热 力学 和 信息 论 之 间 的 理论 联系 就 是 
相关 领域 的 重要 话题 之 一 。CE 是 从 信息 论 领域 提出 的 数学 概念 ， 它 的 物理 意义 
和 解释 一 直 未 得 到 研究 。 马 健 (LT) 将 CE XH TOP AES DORT RU 
的 推导 和 计算 ， 给 出 了 CE 的 热力 学 解释 ， 建 立 了 热力 学 和 信息 论 之 间 的 又 一 
理论 联系 。 


5.2 天 体 物理 学 


红 移 是 宇宙 星体 的 最 重要 信息 之 一 ， 因 其 反映 了 星体 距离 地 球 的 宇宙 距离 ， 
可 以 用 于 研究 星系 演化 和 宇宙 学 。 测 光 红 移 是 一 种 从 宇宙 星体 光学 观测 估计 其 
红 移 的 方法 。 由 于 光学 观测 相 比 于 光谱 观测 更 易于 施行 ， 因 此 测 光 红 移 是 现代 
天 文学 巡天 观测 的 主要 手段 之 一 ， 一 般 在 获得 测 光 红 移 信息 后 再 对 感 兴趣 的 星 
体 进行 光谱 观测 。 机 器 学 习 方 法 已 经 成 为 构建 测 光 红 移 预测 模型 的 主要 方法 之 
一 ， 但 其 预测 准确 度 仍 有 待 提高 。 马 健 [18] 提出 利用 基于 CE 的 变量 选择 方法 
构建 此 类 估计 模型 ， 以 提高 预测 模型 的 准确 度 。 该 方法 首先 估计 光学 观测 和 红 
移 之 间 的 CE 作为 观测 变量 的 重要 性 度量 ， 再 将 重要 的 观测 变量 作为 模型 的 输 
人 来 预测 红 移 。 他 将 方法 应 用 于 斯 隆 巡 天 类 星体 观测 数据 ， 结 果 表 明 ， 利 用 CE 
选择 后 得 到 的 模型 的 准确 度 要 高 于 未 经 过 选择 的 模型 ， 特 别 是 在 高 红 移 (2 4) 


14 实 验 代码 : https://github.com/majianthu/eva 
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K 2: 评估 的 独立 性 和 条 件 独 立 性 度量 方法 及 其 软件 实现 
算法 包 独立 性 条 件 独立 性 度量 | 语言 
copent CE TE/CI lid) R 
stats Ktau R 
energy dCor R 
dHSIC dHSIC R 
HHG HHG R 
independence Hoeff [o3], BDtau [204] R 
Ball Ball [205 R 
qad QAD R 
BET BET R 
MixedIndTests Mixed | R 
subcopem2D subcopula [22] R 
EDMeasure MDM [227] CMDM [228] R 
FOCI CODEC | CODEC [230] R 
NNS NNS | R 
RCIT R 
cdcsis R 
GeneralisedCovarianceMeasure R 
weightedGCM R 
KPC R 
ppcor R 
parCopCITest R 
causallearn Python 
pycit Python 
knncmi Python 
fcit Python 
CCIT Python 
pcit Python 
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的 星体 上 ， 预 测 准确 度 得 到 了 明显 提升 四 .同时 ,方法 也 选择 出 了 具有 可 解释 性 
的 一 组 光学 观测 变量 ,包括 光度 星 等 、 紫 外 波段 亮度 和 标准 差 、 和 其 他 四 个 波段 
亮度 等 ， 为 进一步 天 体 物 理 研 究 和 光学 观测 仪器 设计 提供 了 科学 证 据 。 


5.3 ”地球 物 理学 


土地 干旱 度 是 土地 表面 水 分 和 能 量 动态 交互 过 程 的 属性 ， 传 统 的 干旱 度 度 
量 大 多 使 用 气候 条 件 变量 的 长 期 均值 来 进行 计算 ， 难 以 反映 短期 的 地 表 水 分 -能 
量 交 互 。 蒸 散 是 表征 短期 地 表 的 水 汽 - 能 量 交 互 过 程 的 关键 变量 ， 包 括 土 地 和 植 
物 表 面 的 水 分 散发 ， 传 统 上 根据 土壤 湿度 和 能 量 供应 将 其 分 成 水 分 驱动 、 能 量 
驱动 和 过 渡 型 三 种 概念 框架 。 人 研究 表明 ， 蒸 散 - 土 壤 湿 度 关系 也 受 其 他 因素 影响 ， 
如 云层、 风速 和 植被 等 ， 考 虑 这 些 因素 如 何 影响 蒸 散 为 开发 新 的 土地 干旱 度 分 
类 框架 提供 了 可 能 性 。Shan 等 [19] 通过 考虑 土地 -大 气 的 短期 耦合 效应 ， 提 出 
了 一 种 新 的 刻画 土地 干旱 度 的 方法 。 该 方法 利用 基于 CE 的 条 件 互 信息 分 别 计 
算 蒸 散 与 土壤 湿度 和 太阳 辐射 的 因果 关系 强度 ， 再 利用 这 两 种 因果 关系 的 差 值 
将 土地 干旱 度 分 为 6 种 类 型 ， 分 别 对 应 到 三 种 藻 散 概念 框架 。 他 基于 1990 至 
2020 年 间 夏 季 中 国 大 陆 的 气温 、 露点 温度 、 土 壤 湿 度 、 潜 在 热流 、 敏 感 热 流 、 落 
散 和 地 表 太 阳 辐 射 等 逐 小 时 记录 数据 ， 利 用 该 方法 得 到 了 土地 干旱 度 空间 分 布 
图 ， 并 与 联合 国 环境 规划 署 的 干旱 度 指 数 进行 了 对 比 ， 发 现 该 方法 计算 得 到 的 
条 件 互 信息 分 布 图 与 水 分 和 能 量 的 地 理 分 布 相符 ， 由 此 得 到 的 干旱 度 分 布 能 够 
更 精确 地 捕捉 短期 地 表 过 程 ， 因 此 提供 了 一 种 短期 土地 -大 气 交 互 过 程 的 有 价值 
的 补充 信息 。 该 方法 加 深 了 对 气候 干旱 特征 的 理解 ， 提 供 了 一 种 对 极端 热浪 和 
又 发 干旱 等 短期 气候 变化 具有 敏感 度 的 表征 工具 方法 。 


Iii 


lim 
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5.4 理论 化 学 


变 构 效应 (Allostery) 被 认为 “生命 的 第 二 秘密 ,是 善 遍 存在 于 几乎 所 有 蛋 
白质 的 生命 现象 。 它 是 指 变 构 调节 分 子 与 蛋白 质 结合 , 诱导 结合 位 点 以 外 的 远 点 
发 生变 化 的 调节 效应 。 最 常见 的 变 构 系统 模型 是 变 构 二 状态 模型 ， 描 述 了 变 构 
过 程 的 热力 学 循环 。 此 类 模型 假设 了 受 体 活化 是 二 状态 过 程 , 这 与 NMR 实验 揭 
示 的 多 模 态 过 程 不 相符 合 。 深 入 理解 配 体 诱导 的 受 体 活化 的 分 子 机 制 需要 构建 
新 的 理论 来 理解 配 体 结合 点 和 激活 点 之 间 的 热力 学 看 合 关系 。Cuendet 等 
提出 了 一 种 新 的 理论 ， 称 为 变 构 景 观 (Allostery Landscape) ， 定 义 了 热力 学 看 
合 函数 来 量化 生物 分 子 系统 中 的 热力 学 粗 合 。 他 们 指出 新 函数 与 copula 密度 函 
数 和 CE 有 密切 联系 ，CE 定义 了 变 构 系统 的 信息 传输 属性 ， 即 配 体 结合 点 和 激 
活 点 之 间 的 信息 传输 。 他 们 将 新 理论 应 用 到 丙 氨 酸 二 肽 的 N 端 和 C 端的 热力 学 
耦合 分 析 中 。 


15 实 验 代码 : https://github.com/majianthu/quasa 
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5.5 ”化 学 信息 学 

化 学 信息 学 是 化 学 和 信息 学 科 的 交叉 学 科 ， 通 过 表征 化 学 结构 为 数据 ， 解 
决 诸 如 分 子 设 计 、 化 学 反应 模拟 和 规划 等 问题 。 定 量 构 效 是 该 领域 的 前 沿 问题 ， 
研究 分 子 结构 与 分 子 理化 性 质 之 间 的 定量 关系 ， 以 指导 具有 指定 特性 的 分 子 设 
计 , 应 用 广泛 。 分 子 理化 特性 可 以 理解 为 分 子 结构 的 某 种 对 称 变换 不 变性 ， 而 从 
数据 学 习 得 到 这 种 不 变性 变换 是 分 子 设计 的 关键 目标 。Wieser 等 [P1] 将 对 称 变 
换 学 习 问 题 转化 为 信息 瓶颈 (Information Bottleneck) 问题 ， 提 出 了 一 种 对 称 
变换 信息 瓶颈 (Symmetry-Transformation Information Bottleneck: STIB) Jy 
法 。 该 方法 将 分 子 表征 表示 为 由 两 个 部 分 组 成 的 隐 含 表示 ， 其 中 一 个 部 分 对 应 
不 变性 表示 ， 基 于 MI (CE) 的 变换 不 变性 , 设计 了 问题 模型 的 学 习 算 法 。 作 者 
将 算法 应 用 于 包含 13.4 万 有 机 分 子 的 QMO 数据 库 忆 4 直 ， 使 用 其 中 具有 固定 化 
学 计量 (C702H10) 的 6095 个 分 子 的 子 集 ， 并 将 其 对 应 的 带 辽 能量 和 极 性 作为 
目标 不 变性 属性 。 实 验 结果 表明 ，STIB 方法 给 出 了 能 够 学 习 出 表征 分 子 属性 、 
带 隙 能 量 和 极 性 不 变性 的 对 称 变换 ， 验 证 了 方法 的 有 效 性 。 
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5.6 ”材料 学 


耐 热 型 含 能 材料 是 指 具 有 高 能 量 和 高 热 稳定 性 的 特殊 材料 ， 可 以 在 高 温 的 
环境 下 保持 稳定 性 质 ， 因 此 是 国防 、 航 空 航天 和 地 质 勘 探 等 重点 领域 的 关键 性 
材料 ， 如 宇航 和 高 超 音速 武器 的 推进 燃料 、 深 井 销 探 的 炸药 等 。 但 此 类 材料 数 
量 稀少 上 且 实 验 研 究 具 有 极 高 危险 性 ， 因 此 设计 此 类 材料 是 材料 学 家 们 一 直 努 力 
攻 殉 的 挑战 性 难题 。“ 从 头 设计 ” 含 能 材料 需要 经 历 “ 设 计 -筛选 -评估 ”的 流程 ， 
其 中 采用 机 器 学 习 的 方法 构建 材料 结构 -性 质 预测 模型 对 设计 的 分 子 性 质 进 行 预 
测 是 材料 分 子 筛选 的 关键 步 又。 传统 的 含 能 分 子 性 质 预 测 模型 构建 过 程 只 采用 
了 与 热 稳定 性 线性 相关 的 分 子 特征 ， 没 有 考虑 与 含 能 材料 热 分 解 温 度 具 有 非 线 
性 关系 的 因素 ， 如 晶体 结构 和 堆积 方式 等 。 田 杰 [22] 提出 了 一 种 结合 皮尔 逊 相 
关系 数 和 CE 的 特征 选择 方法 ， 从 分 子 拓扑 结构 和 量子 化 学 计算 特征 中 选择 与 
热 分 解 温度 具有 相关 性 的 特征 ， 并 构建 预测 模型 。 其 中 ，CE 方法 的 引入 是 为 了 
筛选 和 热 分 解 温 度 具 有 非 线性 关系 的 特征 。 他 收集 了 460 个 含 能 化 合 物 ， 并 生 
成 了 包含 286 个 特征 的 数据 集 ， 并 应 用 该 方法 筛选 得 到 了 87 个 特征 ， 再 将 筛选 
的 特征 做 为 随机 森林 和 SVM 等 模型 的 输入 以 预测 化 合 物 的 热 分 解 温 度 ， 最 终 
得 到 了 较 传统 方法 更 好 的 预测 效果 ， 交 叉 验 证 实验 的 预测 误差 控制 在 了 28.5*C. 
他 们 将 方法 应 用 于 自己 设计 的 分 子 生 成 带 生 成 的 分 子 ， AEH 16 个 具有 良 
好 热 稳 定 潜能 且 爆 麦 能 力 很 强 的 含 能 分 子 ， 验 证 了 方法 的 实用 价值 。 


5.7 水 文学 


洪水 是 主要 自然 灾害 之 一 ， 洪 水 预报 是 降低 洪水 损失 和 管理 洪水 资源 的 重 
要 手段 。 基 于 降水 数据 的 降水 量 -径流 量 模型 可 以 用 来 预报 一 段 时 间 后 的 洪水 。 
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但 是 ， 水 系统 具有 复杂 性 和 非 线性 的 特点 ， 导 致 建立 这 样 的 模型 时 选择 正确 的 
模型 输入 十 分 困难 。 陈 噩 等 pa] Do] 提出 利用 CE 的 方法 来 选择 输入 并 建立 神经 
网 络 预报 模型 。 相 比 于 传统 的 方法 , 基于 CE 的 方法 可 以 建立 高 维 模型 晶 对 单个 
变量 的 边缘 分 布 不 做 假设 ， 同 时 由 CE 来 估计 降水 量 和 径流 量 的 数量 关系 的 误 
差 更 小 。 陈 现 等 将 方法 应 用 于 建立 金沙 江 流域 的 洪水 预报 模型 ， 结 果 显示 利用 
CE 选择 输入 的 神经 网 络 模型 取得 了 最 好 的 预测 效果 。Li 等 [bd] 基于 CE 和 机 
器 学 习 方法 研究 了 长 江上 游 的 月 径流 预报 问题 。 他 们 利用 130 个 全 球 环流 指数 、 
7 个 气象 因子 和 高 场 和 寸 滩 两 个 水 文 站 的 月 径流 量 数据 ， 采 用 CE 等 3 种 变量 
选择 方法 和 5 种 机 器 学 习 模型 进行 组 合 构建 预测 模型 。 结 果 表 明 ，CE 和 LSTM 
组 合 在 高 场 站 获得 了 最 优 预 测 性 能 ， 而 随机 森林 和 CE 组 合 在 寸 浴 站 获得 了 满 
意 性 能 。Mo 等 p] 提出 了 一 种 长 期 径流 预报 模型 框架 , 结合 了 CE、LSTM 和 
GARCH 三 种 方法 ， 其 中 CE 用 于 筛选 与 径流 有 关 的 预报 因子 。 与 传统 方法 相 
比 ，CE 更 适合 因子 间 具有 交互 关联 的 复杂 情况 。 他 们 将 方法 应 用 于 洪 泽 湖 和 骆 
马 湖 的 径流 预报 研究 ， 结 果 表 明 ， 与 传统 方法 相 比 ， 该 框架 中 的 CE 方法 不 仅 
成 功 辨别 了 因子 间 的 交互 效应 ， 同 时 还 量化 了 每 个 预报 期 内 各 个 因子 的 贡献 度 ， 
从 而 选 出 了 与 预报 有 关 的 关键 驱动 因子 ， 最 终 该 方法 框架 得 到 了 较 对 比方 法 更 
准确 、 更 稳定 且 更 可 靠 的 预报 结果 。 陈 佳 雷 等 [ps] 提出 了 一 种 时 空 图 卷 积 网 络 
的 径流 预报 方法 ， 首 先 构建 流域 内 站 点 的 拓扑 结构 图 ， 再 利用 邻接 矩阵 表示 地 
理 相 邻 站 点 之 间 的 时 空 依赖 性 ， 并 利用 CE 等 工具 分 析 相 邻 关 系 、 周 期 性 和 气 
象 要 素 与 径流 量 之 间 的 时 空 相 关 关系 ， 最 后 构造 相应 的 带 有 注意 力 机 制 的 图 卷 
积 网 络 做 为 径流 预报 模型 。 他 们 以 金沙 江 流 域 为 对 象 ， 验 证 了 方法 的 有 效 性 。 
干旱 是 另 一 类 重要 的 水 文 事件 和 影响 重大 的 自然 灾害 之 一 。 频 发 的 干旱 严 
重 影响 着 我 国 的 经 济 社会 安全 ， 特 别 是 黄河 流域 的 干旱 威胁 尤其 严重 ， 迫 切 需 
要 开展 流域 干旱 驱动 和 预测 的 研究 。 温 云 亮 等 Po) 利用 CE 理论 分 析 了 河南 省 
1951-2014 年 逐 月 气象 数据 ， 发 现在 众多 驱动 因子 中 ， 降 水 量 、 气 温 、 水 气压 
和 相对 湿度 对 该 地 区 干旱 发 生 的 影响 最 大 。Huang 和 Zhang [B0] 利用 CE 方法 
分 析 了 兰州 地 区 1957-2010 年 的 气象 数据 ， 以 构建 该 地 区 的 干旱 预测 模型 ， 发 
现 该 地 区 的 风速 、 气 温 、 水 气压 和 相对 湿度 是 与 干旱 最 相关 的 气象 因子 。 黄 春 
He Bil 研究 了 黄河 流域 的 气象 、 水 文 和 干旱 之 间 的 关系 ， 探 讨 了 干旱 的 驱动 机 
dl, 给 出 了 气象 干旱 和 水 文 干旱 的 概念 , 并 提出 利用 CE 方法 探究 二 者 之 间 的 动 
态 非 线性 响应 关系 ， 通 过 分 析 黄河 流域 不 同 区 域 水 文 站 的 气象 和 水 文 干旱 指数 ， 
得 到 了 水 文 干旱 对 气象 干旱 的 滞后 效应 时 间 ， 为 应 对 干旱 事件 提供 了 参考 。 牛 
4% [B2] 利用 CE 等 工具 研究 了 黄河 流域 9 个 分 区 干旱 传播 的 时 空 特征 。 他 基于 
1961 至 2020 年 间 各 个 分 区 的 气象 、 土 壤 湿 度 和 径流 数据 ， 利 用 CE 计算 不 同 
类 型 非 平稳 干旱 指数 之 间 的 非 线 性 相关 关系 ， 进 而 得 到 干旱 响应 时 间 尺度 、 干 
旱 传播 强度 和 干旱 传播 率 等 指标 ， 最 终 发 现 了 各 分 区 上 气象 干旱 、 农 业 干旱 和 
水 文 干旱 之 间 传播 敏感 度 和 传播 强度 的 强 弱 特 征 。Ni 等 B3] 利用 MI 和 CE 之 
间 的 等 价 关 系 ， 提 出 了 基于 MI TUBE Copula 结构 选择 方法 ， 并 应 用 于 黄河 流域 
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干旱 识别 中 特征 变量 建 模 问 题 和 多 水 文 站 流量 相关 结构 建 模 问题 中 。Kanthavel 


等 BA 利用 CE AE copula 等 理论 工具 ， 提 出 了 一 种 综合 干旱 指数 ， 整 合 了 


标准 化 降雨 指数 、 干 旱 监测 指数 、 标 准 化 土壤 湿度 指数 和 标准 化 径流 干旱 指数 


等 四 种 指数 ， 可 以 更 好 地 同时 反映 相关 水 文 气象 变量 和 不 同类 型 的 干旱 。CE 理 


论 被 用 来 衡量 新 指数 与 原始 指数 之 间 的 相关 性 。 他 们 将 该 指数 应 用 于 印度 中 部 


Im 


的 达 布 蒂 (Tapti) 河流 域 的 单 月 和 四 个 月 尺度 的 干旱 研究 中 ， 验 证 了 该 指数 的 


有 效 性 ， 并 揭示 了 该 地 区 干旱 的 时 空 


分 布 特点 。Mohammadi 等 [B5] 利用 基于 


copula 和 CE 理论 的 三 种 相关 性 度量 估计 方法 ， 在 伊朗 三 座 城 市 ( 扎 黑 丹 、 思 
泽 利和 马 什 哈 德 ) 1950-2017 年 的 水 文 观测 数据 的 基础 上 , 分 析 了 三 地 的 干旱 变 


E (干旱 强度 、 时 长 和 时 间 间 隔 ) 之 间 的 依赖 关系 。 


水 文 气象 观测 网 络 是 获取 水 文 信息 的 基础 设施 。 如 何 设 计 并 优化 网 络 站 点 


是 一 个 综合 性 的 科学 和 工程 问题 。 


个 基本 的 设计 原则 是 观测 站 点 之 间 尽 量 统 


计 独 立 ， 这 样 才能 最 大 程度 的 获取 水 文系 统 的 信息 。MI 是 衡量 统计 独立 性 的 主 


要 工具 ， 但 是 其 计算 是 


个 难题 。Xu 等 [Bol B7] 


提出 了 一 个 基于 CE 的 多 目标 


优化 的 水 文 观测 网 络 设 计 方法 ， 包 括 两 步 : 1) 基于 CE 的 信息 传输 将 观测 站 点 
分 组 ; 2) 对 每 个 分 组 选择 最 优 的 站 点 组 合 。 基 于 CE 的 计算 方法 不 仅 能 够 处 理 


水 文 变量 的 非 高 斯 性 ， 同 时 在 计算 性 


的 方法 计算 精度 更 高 ， 


能 上 也 更 可 靠 、 更 有 效率 。 作 者 将 方法 应 
用 于 黄河 流域 伊 洛 河水 文 观测 网 络 和 上 海 雨量 观测 网 络 的 设计 。 结 果 显 示 ，CE 
且 可 以 应 用 于 高 维 的 多 变量 估计 情况 。 同 样 


于 最 少 重 


AAEM, Li 等 Balbo) 提出 了 一 个 由 两 个 子 目标 构成 的 网 络 优化 目标 ， 其 


中 一 个 子 目标 基于 CE 而 设计 ， 用 于 衡量 宛 余 信息 量 。 作 者 将 此 方法 分 别 应 用 
于 汾 河 径流 观测 网 、 北 京 市 区 以 及 太湖 盆地 的 雨量 
表明 了 方法 可 靠 日 有 效 。 徐 鹏 程 等 feo) Lal) 提出 利 月 
于 估计 的 芯 Copula 来 计算 站 点 间 的 CE ff, 在 此 基础 上 提出 了 结合 
滑动 窗口 法 选择 优化 站 点 。 他 们 基于 淮 
河流 域 1992-2018 年 的 日 降水 量 观测 数据 ， 利 用 该 方法 对 该 流域 43. 个 雨量 观测 


网 络 , 再 


CE 和 克 里 金 指标 的 站 点 优化 目标 ， 利 月 


| 


网 测 网 的 设计 和 优化 ， 结 果 
JRE Copula 来 构建 站 点 关系 


Ta 
e 


uu 


站 点 网 络 进行 了 优化 ， 结 果 表 明 该 方法 得 到 的 网 络 能 够 较 传统 类 似 方法 得 到 的 
网 络 更 有 效 地 获取 降水 相关 信息 。 杨 惜 岁 [42] EA PAR GRAMME. TUAE 


比 和 NSE 效率 系数 的 站 网 优化 准则 ， 并 
法 ， 提 高 了 计算 的 准确 性 。 他 将 方法 应 有 


基于 CE 理论 提出 了 新 的 MI 计算 方 


月 于 美国 查 克 托 哈 奇 (Choctawhatchee) 


河流 域 的 14 个 水 文 站 点 ， 进 行 站 点 优化 研究 ， 最 终 得 到 了 只 包含 5 个 站 点 的 网 


络 ， 提 高 了 站 网 的 监测 效率 。 


分 析 河 流 的 干流 和 支流 之 间 的 相关 色 


E 对 水 利 工程 设计 、 洪 水 预防 和 风险 防 


控 十 分 重要 。 三 峡 大 坝 作 为 长 江上 游 河 段 的 大 型 水 利 工 程 ， 其 一 个 重要 功能 就 


是 洪水 控制 ， 研 究 该 河 段 的 主要 河流 相关 性 对 工程 设计 和 安全 运行 
考 价值 . Chen 和 Guo [43] 提出 利用 CE 来 计算 河流 相关 性 的 强度 ,他 们 将 方法 


HATERS 


应 用 于 包含 了 5 条 主要 干支 流 的 长 江上 游 河 段 ， 基 于 干支 流 1951-2007 年 间 的 


洪水 记录 数据 计算 河流 间 的 相关 性 。 他 们 发 现 河 流 之 间 总 的 相关 性 


不 高 ， 这 
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与 该 地 区 的 气候 特征 相符 ; 相关 关系 最 强 的 是 岷江 和 沱江 ， 这 是 由 于 二 者 距离 
最 近 , 且 属 于 同一 降水 区 域 ; 金沙 江 和 岷江 、 沱 江 之 间 具 有 一 定 的 相关 性 , 对 三 
峡 大 坝 的 洪水 控制 构成 了 一 定 的 威胁 ; 金沙 江 、 嘉陵 江 、 岷 江 和 沱江 对 长 江 盆地 
的 洪水 发 生 具有 显著 影响 。 

不 同 河流 和 区 域 的 洪水 事件 释 加 易于 形成 复合 洪水 事件 ， 但 不 同 洪水 过 程 
之 间 的 空间 关系 很 难 利用 现 有 相关 性 分 析 方法 来 准确 地 描述 和 评估 。Wang 和 
Shen [14] 提出 了 一 个 整合 藤 copula 和 相关 性 评估 的 方法 框架 ， 其 中 利用 了 CE 
HVC ARE Copula 来 估计 MI, CMI 和 R 统计 量 等 相关 性 强度 。 他 们 将 方法 用 
于 评估 长 江上 游 已 鉴别 的 102 个 复合 洪水 事件 中 两 种 极端 径流 序列 变量 (洪峰 
流量 和 洪水 流量 ) 之 间 的 关系 。 结 果 表明 ,该 框架 的 多 维 RE copula 模型 能 够 
更 好 地 描绘 复杂 多 样 的 水 文 相关 关系 ， 特 别 是 藤 结 构 表示 了 支流 洪水 汇 人 干流 
的 顺序 和 水 文 站 之 间 的 空间 位 置 关系 ; 该 框架 估计 的 三 种 相关 性 强度 比 传统 的 
相关 性 强度 更 好 地 反映 了 复杂 时 空 水 文系 统 的 复合 洪水 事件 中 的 非 线性 关系 。 
黄河 水 沙 调控 关系 到 黄河 治理 的 策略 制定 ， 科 学 认 知 评估 黄河 的 水 沙 通 量 
变化 特征 是 基础 性 的 科学 问题 ， 对 研判 黄河 泥 沙 情势 具有 重要 意义 。 特 别 是 近 
几 十 年 来 ， 受 气候 变化 和 人 类 活动 的 释 加 影响 ， 黄 河水 沙 含量 发 生 了 显著 变化 ， 
需要 准确 估计 径流 量 和 输 沙 量 的 分 布 变化 情况 。Copula 函数 是 分 析 这 种 分 布 的 
基本 数学 工具 ， 但 此 类 问题 往往 观测 样本 较 少 ， 难 以 准确 估计 Copula 函数 的 
参数 。Qian 等 [ts] 提出 了 一 种 基于 CE 和 全 相关 (Total Correlation) 关系 的 
Copula 参数 估计 方法 ， 用 于 解决 在 样本 较 少 的 情况 下 的 Copula 参数 估计 问题 。 
他 们 将 方法 应 用 于 黄河 西柳 沟 河流 域 1960-2016 年 间 年 度 径流 量 和 输 沙 量 的 数 
据 的 分 析 ， 该 流域 在 1999 年 前 后 水 沙 关系 发 生 了 显著 变化 ， 但 数据 较 少 。 分 析 
结果 发 现 ， 对 于 1999 年 前 后 的 两 个 时 段 ， 新 方法 均 得 到 比 两 种 传统 方法 更 准确 
的 Copula 参数 估计 ， 对 数据 的 拟 合 更 好 。 

流域 分 区 是 水 文学 研究 的 重要 方法 ， 根 据 水 文 相似 性 特征 划分 流域 内 相似 
性 区 域 ， 可 解决 无 水 文 观测 地 区 的 水 文 计算 等 难点 问题 。 径 流 响应 是 重要 的 流 
域 水 文 特征 ， 根 据 流域 水 文 站 点 观测 之 间 的 相似 性 做 流域 分 区 是 一 种 基本 的 研 
究 路 径 。 传 统 的 流域 分 区 方法 基于 相关 性 评价 ， 往 往 难以 反映 水 文系 统 内 在 的 
复杂 关系 。 刘磊 等 10] 提出 采用 基于 CE 的 R 统计 量 来 衡量 节点 间 的 径流 相似 
性 ， 再 在 此 基础 上 利用 社团 检测 算法 对 流域 进行 分 区 。 他 们 将 方法 应 用 于 郡 阳 
湖水 系 ， 利 用 该 流域 的 水 文 站 观测 对 流域 进行 了 分 区 ， 并 将 方法 与 传统 的 K 均 
值 聚 类 方法 进行 了 对 比 。 结 果 表 明 ， 该 方法 能 够 有 效 捕捉 流域 内 湖 库 对 径流 的 
调节 作用 ， 从 而 得 到 较 传统 方法 更 合理 的 流域 分 区 。 

多 站 点 径流 生成 是 随机 水 文学 的 主要 问题 之 一 ， 生 成 的 流量 信息 对 任何 水 
资源 管理 都 是 必 不 可 少 的 。 在 径流 数据 记录 有 限 的 情况 下 ， 生 成 多 站 点 径流 数 
据 十 分 必要 ， 需 要 设计 相应 的 数据 生成 模型 。Porto 等 [e] 提出 了 结合 广义 线 
性 模型 (GLM) 和 Copula 函数 的 多 站 点 年 度 径流 生成 模型 ， 前 者 表示 时 序 结 
构 ， 后 者 为 多 站 点 的 空间 相关 性 建 模 。 在 评价 模型 性 能 时 ， 作 者 采用 了 包括 CE 
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在 内 的 多 个 统计 描述 性 指标 ， 其 中 CE 用 来 衡量 非 线性 的 全 关联 。 作 者 将 该 模 
型 用 于 生成 巴西 的 雅 瓜 里 比 (Jaguaribe) -天 都 市 水 库 系统 的 多 站 径流 时 序数 据 ， 
结果 显示 模型 表现 出 了 优 于 当前 最 好 水 平 的 性 能 ， 特 别 是 在 衡量 多 站 相关 性 的 
CE 指标 上 ， 较 其 他 模型 更 接近 于 历史 观测 数据 。 

南水北调 工程 是 当今 世界 最 大 的 水 利 工程 ， 承 担 着 从 长 江 的 汉江 流域 丹 江 
口水 库 向 北方 地 区 城市 调 水 的 战略 任务 。 准 确 的 人 库 径流 预报 是 科学 合理 的 供 
水 调度 的 前 提 条 件 ， 能 够 使 工程 更 充分 高 效 地 利用 自然 界 的 水 资源 。 但 传统 方 
法 构建 的 预报 模型 很 难 满足 调 水 预报 精度 的 要 求 ， 原 因 在 于 传统 分 析 方法 不 能 
处 理 水 文系 统 的 非 线性 特性 ， 导 致 了 构建 的 入 库 径流 预报 模型 不 合理 从 而 预测 
性 能 不 高 。 黄 朝 君 等 [us] 构建 了 丹江口 水 库 的 月 和 人 库 径流 预报 模型 ， 利 用 CE 
选择 了 一 组 气象 水 文 因子 作为 模型 的 输入 ， 得 到 的 模型 具有 明显 优 于 传统 模型 
的 预报 性 能 。 模 型 成 功 的 原因 在 于 采用 CE 选择 的 预报 因子 与 中 长 期 入 库 径流 
密切 相关 ， 印 证 了 印度 洋 个 极 子 事件 和 南海 副 高 活动 与 汉江 流域 夏季 强 降水 之 
间 的 内 在 联系 ， 符 合 自然 界 水 文系 统 的 运行 规律 。 

气候 变化 和 人 类 活动 等 因素 直接 影响 着 水 文系 统 循环 ， 使 得 径流 、 降 水 和 
蒸发 等 水 文 因素 发 生 了 不 同 程度 的 时 空 变化 。 因 此 ， 从 空间 角度 研究 降水 和 径 
流 等 水 文 因素 之 间 关 系 ， 进 而 分 析 这 些 关系 时 空 变化 背后 的 气候 变化 和 人 类 活 
动 原因 是 水 文学 领域 的 重要 课题 ， 受 到 了 国内 外 学 者 的 关注 ， 对 水 资源 规划 管 
理 等 经 济 社会 活动 具有 科学 参考 价值 。 蒋 佩 东 [9] 利用 CE 等 工具 分 析 了 长 江 
流域 降水 、 燕 发 、 洪 在 蒸 散 发 、 径 流 和 植被 指数 NDVI 的 流域 栅 格 数据 ， 从 得 
到 的 空间 相关 性 发 现 了 这 些 因 素 的 空间 分 布 特征 ， 并 给 出 了 定性 的 地 理学 解释 。 
特别 是 ， 根 据 CE 估计 值 判 断 ， 他 发 现实 际 蒸 散 发 和 降水 对 年 径流 的 影响 较 高 ， 
而 年 径流 与 以 上 各 因素 的 空间 相关 性 具有 空间 异 质 性 特征 。 


5.8 ”气候 学 


气候 变化 是 气候 学 研究 的 课题 之 一 ， 它 不 仅 体现 在 水 文 气候 变量 幅度 上 的 
变化 ， 也 体现 在 变量 的 季节 和 周期 变化 的 分 布 上 。 这 种 变化 会 对 降水 和 气温 的 
强度 和 频率 造成 影响 ， 导 致 极端 天 气 (如 洪水 、 干 旱 和 热浪 等 ) 的 增加 。 降 水 和 
气温 的 相关 性 会 加 剧 联合 极端 天 气 的 发 生 和 强度 。 研 究 气 候 变 化 对 降水 和 气温 
相关 结构 的 影响 是 一 个 重要 的 问题 。Hao 和 Singh B0) 利用 CE 度量 工具 研究 
了 气候 变化 对 这 种 相关 结构 的 影响 。 研 究 采用 了 美国 德 克 萨 斯 州 达拉斯 市 沃 斯 
堡 (Fort Worth) 在 1948-2010 年 间 的 每 日 降水 和 气温 数据 ， 以 每 5 年 为 期 计 
算 温度 和 降水 之 间 的 负 CE 值 作为 相关 结构 强度 ， 发 现 该 地 区 的 温度 和 降水 之 
间 的 相关 结构 强度 (fa CE fH) 从 1948-1980 年 间 的 0.18 下 降 到 了 1948-2005 
年 间 的 0.06， 说 明了 气候 变化 对 该 地 区 水 文 气候 变量 之 间 关系 造成 了 影响 。 

气候 评估 是 科学 应 对 气候 变化 的 基础 性 工作 ， 其 目标 是 监测 和 分 析 全 球 和 
地 区 气候 及 其 变化 ， 特 别 关注 于 变化 趋势 和 极端 气候 风险 等 。 气 候 分 类 是 指 根 
据 相似 气候 特征 将 地 区 分 类 ， 最 常见 的 Koppen 分 类 法 采用 的 气候 特征 是 温度 
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模式 和 季节 性 降水 。Condino [b1] 提出 了 一 种 
分 类 算法 , 其 中 基于 JS 距离 的 分 类 准则 采 月 
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于 Jensen-Shannon 距离 的 动态 
了 基于 CE 理论 的 表示 方法 并 进行 


估计 。 他 将 方法 应 用 于 欧洲 气候 评 佑 问题， 根据 1951-2008 年 间 欧 洲 气象 观测 


站 每 日 温度 和 降水 数据 对 欧洲 25 座 主要 城 


出 的 算法 成 功 区 分 了 分 别 属于 欧洲 


的 气候 进行 分 类 。 结 果 表 明 ， 其 提 


| 南部 和 北部 气候 带 的 城市 群 ， 当 进一步 考虑 


南北 气候 过 渡 带 时 ， 算 法 也 对 欧洲 
的 分 类 结果 。 


59 气象 学 


环境 污染 是 现代 社会 的 主要 问题 之 


[中 部 城市 给 出 了 与 实际 气候 情况 相符 的 合理 


。 从 气象 学 的 角度 分 析 大 气 污染 的 成 


因 ， 明 晰 其 内 在 机 理 ， 有 助 于 更 好 的 理解 污染 问题 ， 进 而 预测 、 干 预 和 管理 污 


染 。 理 解 大 气 系统 中 的 因果 关系 是 问题 的 关键 。 


基于 对 气象 因素 和 环境 污染 物 


的 观测 , 可 以 利用 统计 学 中 的 TE 方法 分 析 气 象 因素 对 环境 污染 的 因果 关系 。 马 


象 和 PM2.5 连续 观测 数据 Rid, 


时 时 滞 内 的 因果 强度 变化 图 Curl). 


得 到 了 
变化 图 显示 ， 


te (LO) 利用 其 提出 的 基于 CE 的 TE shite CUBA), oR TAR 
四 个 气象 因素 对 PM2.5 浓度 的 24 小 


四 种 气象 因素 对 PM2.5 He 


度 的 因果 强度 大 致 经 历 快速 升 高 和 缓慢 增加 两 个 阶段 。 作 者 还 特别 讨论 和 验证 


了 该 方法 的 平稳 性 假设 和 马尔 科 夫 愧 


假设 在 此 中 尺度 数值 分 析 问 题 上 的 适用 
论文 所 得 到 的 因果 变化 图 反映 了 大 气 系统 运动 的 内 在 动态 特征 ， 增 加 了 人 


性 。 
门 对 


PM2.5 污染 的 气象 成 因 的 理解 。 同 时 ， 得 到 的 时 序 因果 关系 也 为 整合 气象 因素 ， 


构建 更 优 性 能 的 污染 预报 模型 提供 了 参考 依据 。( 更 多 内 容 见 B.4) 


有 效 的 大 气 污染 预测 对 于 污染 防 控 具 有 基础 性 


作用 ， 也 利于 保护 居民 健康 。 


但 当前 的 大 气 污染 (如 PM2.5 浓度 ) 预测 在 准确 性 和 稳定 性 上 还 很 难 满足 要 求 。 
开发 性 能 更 高 的 预测 模型 受到 了 广泛 的 关注 。 在 综合 考虑 了 传统 方法 的 不 足 的 


种 机 器 学 习 模 型 的 组 合 方法 ，CE 


影响 的 因子 ， 以 用 于 构建 最 终 模型 。 他 们 ; 


基础 上 ，Wang 等 [52] 提出 了 一 种 新 的 大 气 污染 预测 预警 方法 , 使 用 了 CE 和 多 
方法 在 其 中 被 用 来 选择 对 PM2.5 浓度 波动 有 
千 开 发 的 方法 应 用 于 上 海 和 广州 两 地 


的 实际 大 气 污 染 预 测 预警 系统 ， 结 果 表 明 新 方法 能 得 到 较 其 他 对 比方 法 更 好 的 


预测 准确 性 和 稳定 性 。Wu 等 [b3] 


提出 了 一 种 


用 CE 计算 气象 因素 与 大 气 污染 物 浓度 之 间 的 相关 愧 


T CE 的 PM2.5 预测 方法 ， 利 


E 来 选取 模型 输入 特征 ， 在 


F 
出 增强 的 时 序 卷 积 网 络 (TCNA) 构建 


基于 LSTM 和 进化 算法 相 结合 的 方法 建立 预测 模型 。 该 方法 在 北京 地 区 2016 
年 的 历史 数据 上 取得 了 良好 的 预测 性 能 。Chen bd 
影响 PM2.5 WAF, WAH ATER 


用 CE 从 多 种 因子 中 选 出 


= 


预测 PM2.5 浓度 的 模型 ， 他 将 方法 应 用 于 北京 


7 12 个 区 域 2013 至 2017 年 逐 


小 时 气象 和 污染 观测 数据 ， 得 到 的 预测 模型 具有 高 度 的 可 解释 性 和 预测 准确 度 。 


全 球 气 候 变 暖 导致 我 


国 华南 地 区 的 台风 强度 越 来 越 强 ， 强 台风 给 该 地 区 造 


成 了 严重 的 损失 。 根 据 台 风灾 害 的 观测 数据 预测 灾情 程度 ， 是 台风 灾害 的 研判 


和 应 对 的 重要 参考 。 但 台 


风灾 害 影响 因子 较 多 ，] 


日 与 灾情 之 间 具 有 非 线性 关系 ， 
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图 4: 四 种 气象 因素 到 PM2.5 浓度 的 24 小 时 时 汪 内 因果 强度 变化 图 . 


5 实际 应 用 35 


给 预测 模型 构建 造成 困难 。 陈 燕 歼 等 [bo] 基于 CE 等 工具 ， 提 出 了 一 种 台风 灾 
预测 模型 构造 方法 。 他 们 基于 1985-2014 年 间 登 陆 或 影响 广西 的 44 个 台风 灾 
害 数据 ， 以 及 同期 与 致 灾 、 承 灾 和 防 灾 减 灾 相关 的 灾情 统计 数据 ， 构 建 了 21 个 
灾害 影响 因子 ， 再 利用 CE 筛选 与 灾情 指数 最 相关 的 因子 ， 发 现 最 大 风速 、 最 
低 气压 、 暴 雨 时 长 和 暴雨 极 值 与 灾情 指数 最 相关 ， 能 够 客观 地 反映 实际 情况 。 实 
验 也 表明 ， 利 用 CE 筛选 的 因子 构建 的 模型 的 预测 精度 要 高 于 同类 对 比方 法 构 
建 的 模型 ， 可 为 广西 台风 灾情 预测 提供 参考 。 


aj 


5.10 “环境 学 


大 气 污染 是 现代 城市 面临 的 主要 环境 问题 之 一 ， 严 重 影响 城市 运行 和 居民 
生活 。 对 大 气 污染 扩散 规律 的 分 析 是 环境 科学 的 重要 问题 ， 对 环境 监管 部 门 更 
好 地 了 解 污 染 规律 并 有 效应 对 具有 基础 性 的 指导 作用 。 大 量 的 城市 污染 气象 观 
测 网 点 生成 的 数据 , 有 助 于 分 析 扩散 规律 进而 对 污染 扩散 作出 预测 。 吴 京 鹏 [bo] 
提出 了 一 种 节点 无 特征 网 络 链 路 预测 算法 ， 并 将 其 应 用 于 城市 大 气 污染 传播 路 
径 建 横 和 预测 问题 。 他 将 方法 应 用 于 兰州 市 辖区 环境 监测 站 网 2017 年 的 PM2.5 
观测 数据 ， 利 用 基于 CE 的 TE 算法 构建 了 传播 网 络 ， 再 应 用 提出 的 网 络 链 路 
预测 算法 预测 污染 传播 路 径 。 实 验 结果 表明 ， 该 方法 可 以 准确 发 现 污染 传播 路 
径 ， 为 兰州 城市 污染 治理 策略 制定 提供 了 理论 支撑 。 

UL (NOx) 是 火力 发 电厂 排放 的 主要 污染 物 之 一 ， 需 要 通过 实施 监测 
来 严格 管控 其 排放 浓度 。 电 厂 一 般 采 用 SCR. 脱 硝 反应 器 的 中 和 方法 控制 NOx 
排放 浓度 , 但 控制 过 程 存在 大 延迟 , 无 法 做 到 精确 控制 ,一 般 采 用 软 测量 模型 预 
测 与 SCR 控制 器 配合 来 达成 控制 目标 。 金 秀 章 等 (57) 提出 了 一 种 VMD-Bayes- 
Lasso 相 结合 的 软 测量 算法 框架 ， 以 预测 NOx 排放 浓度 。 该 方法 框架 首先 利用 
CE 筛选 与 NOx 浓度 相关 的 系统 变量 , 以 预测 分 解 后 的 NOx 浓度 模 态 变量 , 再 
秋 加 得 到 最 终 预测 结果 ， 最 后 设计 了 基于 Lasso 算法 的 模型 误差 预测 模型 来 校 
正 预 测 结果 。 他 们 在 宁夏 某 660MW 燃 煤 电厂 的 数据 上 验证 了 该 算法 框架 ， 得 
到 了 较 对 比方 法 更 好 的 预测 精度 ， 其 中 ， 通 过 CE 方法 分 析 了 系统 变量 内 部 以 
及 和 目标 变量 之 间 的 相关 度 ， 达 到 了 精简 模型 和 提高 预测 精度 的 目的 。 

氮气 (NHs) 是 大 气 中 的 重要 碱 性 气体 ， 在 大 气 氮 循 环 中 发 挥 着 重要 作用 ， 
也 因此 与 诸多 环境 问题 密切 相关 。 含 氨 气 溶胶 颗粒 物 是 空气 中 PMo s 的 重要 来 
源 ; 自然 界 中 氨 的 含量 变化 也 会 导致 土壤 酸化 、 水 域 营养 化 和 生物 多 样 性 降低 等 
诸多 问题 。 因此 , 研究 氮气 浓度 的 时 空 变化 及 其 影响 因素 , 具有 重要 的 科学 价值 
和 现实 意义 。 大气 氨 含量 主要 来 自 人 类 的 农业 、 工业 和 城市 交通 活动 , 长 三 角 地 
区 作为 我 国 的 经 济 发 达 地 区 和 人 口 密集 区 ， 氨 气相 关 的 环境 问题 尤其 不 容 忽视 。 
Xue 等 [BS] 利用 欧洲 气象 卫星 红外 大 气 干涉 仪 的 氨 气 柱 密度 数据 、NASA 的 
NO» 柱 密度 数据 和 欧洲 的 ERAS 气象 再 分 析 数 据 ， 研 究 了 长 三 角 地 区 在 2014 
至 2020 年 间 氨 气 柱 密度 的 长 期 时 空 变化 以 及 变化 背后 的 驱动 因素 。 其 中 ， 他 们 
利用 CE 方法 分 析 了 导致 氮气 浓度 空间 变化 的 影响 因素 ， 通 过 计算 氨 气 柱 密度 


TE 
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与 气象 因 于 、pH 值 、 人 口 密度 和 耕地 占 比 等 空间 变量 之 间 的 相关 性 强度 ， 发 现 
氮 浓 度 与 地 表 气 压 、 降 水 量 、PH 值 和 耕地 占 比 等 因素 密切 相关 ， 表 明了 长 三 角 
地 区 的 氮 分 布 受到 自然 和 人 类 活动 因素 的 双重 影响 。 


5.11 生态 学 


在 生态 学 中 ， 动物 运 动 轨迹 研究 是 一 个 重要 的 基本 问题 ， 可 以 揭示 种 群 活 
动 规律 、 种 群 间 的 竞争 关系 ， 以 及 种 群 和 环境 资源 之 间 的 互动 等 基本 生态 学 过 
程 。 信 息 技术 在 生态 领域 的 利用 生成 了 大 量 的 动物 轨迹 数据 ， 对 这 些 数据 的 分 
析 和 需要 合理 的 建 模 方法 。 环 线 数据 (circular-linear data) 是 生态 学 中 的 一 种 常 
见 的 时 序数 据 类 型 ， 描 述 了 离散 化 的 动物 运动 过 程 ， 包 括 运动 方向 和 运动 距离 
两 个 变量 。 此 二 变量 之 间 通 常 是 相关 的 ， 即 直线 运动 时 运动 方向 较 小 而 运动 路 
离 较 大 ， 转 向 运动 时 运动 方向 较 大 而 运动 距离 较 小 ， 同 时 运动 方向 变量 的 分 布 
一 般 是 对 称 的， 因此 通常 采用 角度 对 称 的 环线 copula. 函数 作为 工具 对 此 类 数据 
进行 建 模 ， 并 利用 基于 copula 的 相关 性 度量 来 衡量 二 者 之 间 的 相关 性 。Hodel 
和 Fleberg [69] 实现 了 环线 copula 的 建 模 和 分 析 的 算法 工具 包 Cylcop， 其 中 
包含 了 基于 CE 的 互信 息 估 计算 法 作为 相关 性 度量 方法 ， 用 于 分 析 动物 轨迹 数 
据 。 


5.12 动物 形态 学 


动物 形态 学 是 动物 学 最 古老 的 分 支 ， 研 究 动物 体 的 形态 和 解剖 结构 以 及 其 
在 发 育 和 进化 过 程 中 的 变化 规律 。 作 为 动物 学 的 基础 学 科 ， 形 态 学 的 研究 是 动 
物 分 类 的 基础 ， 比 如 鱼 类 的 形态 分 类 。 由 于 鱼 类 的 外 形 相似 , 对 其 种 类 进行 鉴别 
往往 会 出 现 偏差 , 这 就 需要 研究 鱼 类 结构 形态 之 间 的 相似 性 度量 问题 。 Escolano 
等 (60) 提出 了 一 种 图 形 形 似 度 度量 的 估计 方法 ， 将 图 形 转 换 为 多 维 流 形 嵌入 向 
ft, 再 利用 CE 估计 方法 估计 向 量 之 间 的 MI 作为 图 形 相似 度 度量 。 他 们 将 方 
法 应 用 到 GatorBait 海洋 鱼 类 图 形 数据 库 ， 该 数据 库 包含 了 30 个 类 别 的 100 
个 鱼 类 外 形 三 角 网 格 图 形 。 由 于 每 类 对 应 的 是 鱼 类 属 而 不 是 种 ， 因 此 同一 类 别 
间 具 有 形态 差异 ， 给 分 类 造成 困难 。 他 们 利用 新 度量 方法 对 数据 库 中 的 鱼 类 图 
形 进行 分 类 ， 实 验 表明 新 的 度量 方法 在 数据 集 上 得 到 了 较 传统 方法 更 好 的 分 类 
性 能 。 

鲍 是 一 类 重要 的 海洋 贝 类 , 具有 较 高 的 营养 价值 和 巨大 的 经 济 价值 。 鲍鱼 的 
形态 学 研究 是 通过 形态 学 变量 的 测量 来 研究 其 生长 过 程 和 种 群 分 布 等 问题 ， 对 
该 类 海洋 资源 的 管理 具有 重要 意义 。Purkayastha 和 Song [61] 提出 了 一 种 新 的 
因果 关系 度量 概念 ， 称 为 非 对 称 MI (AMI), ， 用 于 判断 变量 之 间 因果 预测 性 的 
方向 ,并 基于 CE 理论 给 出 其 快速 且 鲁 棒 的 估计 方法 。 他 们 将 AMI 方法 应 用 于 
UCI 鲍鱼 数据 集 ， 分 析 了 鲍鱼 的 长 度 、 直 径 、 身 高 和 体重 等 形态 学 参数 的 测量 
数据 ， 明 晰 了 鲍鱼 生长 过 程 中 年 龄 与 这 些 变 量 之 间 的 因果 关系 规律 。 
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5.13 农学 
全 球 变 暖 导致 的 环境 变化 会 直接 影响 粮 


a 水 称 是 最 重要 的 谷物 作物 之 一 ， 占 我 国 谷物 产量 的 


安全 至 关 重 要 。 研 究 气 候 变 Te pe 
食 安 全 的 重要 问题 2bang OB) 利用 作物 模型 和 大 气 环流 模式 研究 了 气 代 


变化 对 我 国 南方 (江南 和 华南 ) 两 季 稻 生长 和 产量 的 影 
DSSAT 作物 模型 中 的 模拟 水 称 生 长 和 产量 的 CERES-rice 子 模块 和 CMIP6 中 
的 四 种 大 气 环流 模型 (GCMs)， 并 利用 CE 和 随机 森林 分 析 各 个 月 份 的 气象 因 
子 和 作物 产量 之 间 的 非 线性 关系 。 他 们 利用 每 个 GCM 的 27 组 数据 驱动 南方 


54 个 地 点 的 水 称 作 物 模 型 以 得 到 最 终 产 量 ， 


司 时 研究 了 


BM, 气象 因子 的 上 升 趋势 会 提前 水 稻 成 熟 期 并 降低 产量 
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食 产量 ， 从 而 加 重 世 界 粮食 安全 问 


四 成 左右 ， 对 我 国 的 粮 
出 对 策 是 关系 到 我 国 粮 


啊 及 对 策 。 研 究 采 用 了 


播种 日 期 的 影响 。 研 究 
Es 如 果 再 考虑 CO» 作 


用 ， 早 稳产 量 则 会 增加 ， 而 晚稻 仍 会 减产 ; 根据 CE 计算 结果 ， 两 季 称 产量 和 


CO» 浓度 的 关系 也 是 气象 因子 中 最 强 的 ; 提前 早稻 播种 和 延 后 晚稻 播 种 可 能 会 


增加 一 定 的 产量 。 该 研究 的 结论 为 政府 和 农民 应 对 未 来 的 气候 变化 指明 了 路 径 ， 


为 采用 相应 的 适应 性 对 策 提 供 了 重要 参考 。 


5.14 认 知 神经 学 


认 知 神经 学 通过 分 析 大 脑 活 动 的 各 种 模 态 的 观 涡 
处 理 器 官 ， 对 外 界 刺 油 的 表示 、 处 理 和 通讯 的 机 理 。 
量 ，MI 被 认为 是 分 析 大 脑 信号 间 关 联 的 理想 统计 工具 。 


数据 ， 理 解 大 脑 作为 信息 
作为 一 个 非 线性 的 统计 度 


但 由 于 MI 的 估计 十 分 


困难 ， 使 其 难以 得 到 广泛 的 应 用 。Iece 等 根据 MI 和 CE 之 间 的 等 价 关 系 ， 
提出 了 一 种 MI 估计 方法 ， 称 为 高 斯 Copula 互信 息 (Gaussian Copula Mutual 
Information: GCMI)。GCMI 方法 利用 了 CE SWARM 


每 个 变量 的 边缘 函数 转化 为 高 斯 函数 ， 从 而 得 


数 无 关 的 性 质 ， 首 先 将 


到 联合 高 


斯 分 布 ， 再 根据 所 得 高 


斯 分 布 相 关 和 矩阵 与 MI 的 关系 来 计算 MI。 该 方法 简单 方便 ， 且 与 分 布 无 关 。 但 


由 于 从 高 斯 分 布 数据 计算 MI 是 有 偏差 的 ， 因 此 此 方法 还 需要 进行 校正 纠偏 操 
作 。Ince 等 将 GCMI 与 其 他 MI 估计 方法 进行 了 对 比 ， 并 将 其 应 用 于 分 析 人 脸 
检测 任务 的 EEG 数据 [64] 和 听觉 语音 刺激 任务 的 MEG 数据 [66]. 在 人 脸 检测 
任务 的 实验 中 ，GCMI 被 用 来 计算 图 像 内 容 与 认 知 响应 之 间 的 关联 强度 ， 并 成 
切 选 出 认识 响应 敏感 区 域 (图 像 中 的 眼睛 部 分 )。 在 听觉 
究 了 语音 中 的 节奏 特征 对 大 脑 听 觉 的 节律 同步 的 影响 。 通 过 对 语音 刺激 的 EEG 


响应 数据 的 分 析 ， 作 者 发 现 了 改变 音节 和 词汇 之 间 的 停 


同步 的 降低 。 在 此 实验 中 ，GCMI 是 数据 分 析 的 主要 工具 。 


刺激 实验 中 ，Ince 等 研 


i RUT GE delta ay 


在 GCMI 算法 的 基础 上 ，Compbrisson 等 [67] 提出 了 基于 信息 论 的 群体 层 
面 分 析 大 脑 认 知 网 络 的 方法 , 将 非 参 数 的 排列 操作 与 信 ， 
固定 效果 或 随机 效果 模型 ， 以 适应 多 人 间 和 多 次 任务 间 的 变化 。 他 们 将 方法 应 


SEMA, 用 于 分 析 


用 于 两 个 已 有 研究 的 数据 : 第 一 个 研究 分 析 人 执行 认 知行 为 映射 任务 时 的 MEG 
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数据 中 的 高 Gamma 行为 (High Gamma Activity), ， 发 现 了 任务 相关 的 大 脑 网 
络 , 涉及 多 个 运动 区 、 体感 区 和 视觉 皮层 区 域 等 ; 第 二 个 研究 分 析 奖惩 学 习 任务 
IRA (anterior Insula) SEEG 数据 ， 发 现 了 奖惩 任务 的 响应 时 延 ， 以 及 奖 
和 惩 响应 的 显著 差别 。 汪 方 新 等 [o8] 提出 了 一 种 老年 人 认 知 水 平分 类 方法 ， 首 
先 采 用 GCMI 构建 脑 认 知 网 络 ， 再 利用 GCMI 进行 特征 选择 ， 最 后 利用 SVM 
从 选择 的 脑 网 络 连接 进行 认 知 水 平分 类 。 他 们 将 方法 应 用 于 98 名 葡萄 牙 老 人 的 
静 息 态 fMRI 数据 ， 发 现 提出 的 方法 能 够 捕 所 数据 中 脑 区 间 的 非 线性 关系 ， 并 
能 够 最 终 得 到 较 同类 方法 更 高 的 分 类 准确 率 。 

语音 理解 是 人 脑 的 主要 认 知 功能 ， 研 究 人 脑 的 神经 活动 对 语音 信息 的 编码 
和 解析 是 认 知 神经 学 的 重要 问题 。 语 音 包 络 (speech envelope) 包含 了 语音 信号 
中 的 低频 时 序 信 息 ， 研 究 表明 其 可 以 解释 大 部 分 神经 响应 的 变化 过 程 ， 语 音 包 
络 跟踪 就 是 通过 脑 电 图 等 手段 研究 语音 包 络 及 其 神经 响应 之 间 关系 的 问题 。 由 
于 大 脑 的 非 线性 特征 ， 常 用 的 线性 模型 不 能 很 好 的 表示 这 种 关系 。MI 作为 非 线 
性 关系 度量 工具 ， 被 认为 能 够 捕捉 语音 包 络 和 神经 响应 之 间 的 非 线性 关系 。De 
Clercq ^& [69] 利用 根据 CE 理论 构建 的 GCMI 工具 ， 基 于 两 组 故事 讲述 语音 和 
相应 采集 的 EEG 数据， 对比 了 线性 模型 和 MI 分 析 对 大 脑 非 线 性 成 分 的 刻画 能 
力 。 实 验 结果 表明 MI 分 析 检测 到 了 线性 模型 以 外 的 显著 的 非 线性 成 分 ， 证 明 
了 GCM 是 比 线性 模型 更 适合 于 研究 神经 包 络 跟踪 问题 的 工具 。 作 者 也 实验 验 
证 了 与 传统 的 MI 估计 方法 相 比 ， 基 于 CE 原理 的 GCM 方法 具有 和 鲁 棱 、 无 偏 
和 适合 多 变量 分 析 等 诸多 优点 。 

建立 神经 信号 之 间 的 因果 关系 对 理解 脑 连接 至 关 重要 ， 因 果 关 系 连接 反映 
了 在 脑 认 知 过 程 中 脑 网 络 内 部 不 同 区 域 之 间 的 信息 传输 方向 ， 刻 画 了 大 脑 认 知 
过 程 的 脑 区 之 间 动 态 关系 特征 。 相 比 于 传统 的 格 兰 杰 因果 检验 ， 无 模型 假设 的 
TE 更 适合 此 类 因果 分 析 任务 。Redondo 等 [r0] 基于 CE 理论 提出 了 一 种 新 的 
TE 概念 ， 称 为 STE (Spectral Transfer Entropy)， 用 于 计算 频 域 滤波 后 的 时 域 
ASZEM TE. 与 直接 在 原始 信号 上 计算 TE 相 比 , 在 特定 频 域 上 计算 的 STE 
更 具有 神经 学 意义 的 可 解释 性 。 他 们 将 方法 应 用 于 注意 缺陷 多 动 障碍 (ADHD) 
患者 EEG 信号 的 分 析 ， 利 用 STE 构建 因果 关系 脑 连 接 网 络 ， 发 现 了 ADHD 
患者 与 健康 人 之 间 与 注意 力 相关 的 脑 连 接 网 络 连接 的 不 同 。 实 验 结果 表明 ， 健 
康 人 在 与 注意 力 和 受 控 记忆 存 取 相关 的 9 和 a 频段 表现 出 明显 的 因果 联系 ， 而 
ADHD 患者 的 脑 网 络 连接 则 主要 在 5 振荡 上 ， 可 解释 为 与 注意 力 缺 陷 有 关 。 

神经 元 特 化 (neuron specification) 是 指 其 具有 执行 特定 功能 的 属性 ， 可 以 
通过 研究 外 部 环境 刺激 和 神经 响应 信号 之 间 的 关系 来 鉴别 。MI 作为 一 种 非 线性 
关联 关系 度量 ， 是 研究 此 问题 理想 的 工具 。Pospelov 等 [ri] 利用 GCMI 方法 
计算 钙 荧光 信号 和 环境 变量 、 动 物 行为 之 间 的 相关 性 强度 ， 对 小 鼠 大 脑海 马 的 
CAL 区 记录 的 钙 信 号 进行 了 分 析 ， 揭 示 了 与 动物 外 部 环境 相关 的 特 化 神经 元 ， 
如 位 置 神经 元 ， 以 及 与 其 行为 活动 相关 的 特 化 神经 元 ,如 在 跑 、 直 立 和 静止 时 活 
动 的 神经 元 。 研 究 也 发 现 了 一 些 对 离散 变量 进行 响应 的 神经 元 ， 如 动物 的 场地 
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位 置 (中 央 ， 靠 墙 和 角落 ) 和 其 速度 (休息 、 慢 和 快 )。 他 在 四 组 实验 中 一 共 检 
测 到 472 个 神经 元 的 781 种 特 化 。 


5.15 运动 神经 学 

肌肉 协同 (Muscle Synergy) 是 运动 的 基础 ， 指 人 完成 各 种 动作 时 肌肉 组 合 
之 间 时 空 上 的 动作 协同 。 人 体 的 运动 控制 系统 是 一 个 具有 宛 余 自由 度 的 系统 , 一 
般 认为 神经 系统 通过 运动 基 元 的 组 合 协同 策略 来 完成 一 个 动作 。 运 动 控 制 研究 
的 一 个 重要 基本 问题 是 鉴别 运动 控制 中 简化 的 基本 肌肉 协同 策略 。 通 过 分 解 运 
动 过 程 的 肌 电 (Electromyographic: EMG) 信号 数据 理解 运动 控制 潜在 的 基本 
协同 机 理 是 基本 研究 手段， 但 如 何 处 理 信号 中 的 非 线性 是 主要 的 难题 之 一 ， 基 
于 CE 的 MI 估计 是 处 理 此 难题 的 有 力 工具 。Wnu 等 [rau r3] 将 多 元 变 分 模 态 分 
解 与 基于 CE 的 MI 相 结合 ， 构 建 了 肌肉 耦合 网 络 模型 ， 基 于 表面 EMG 数据 
分 析 了 健康 人 伸手 运动 过 程 中 上 肢 肌 肉 间 的 时 空 协同 ， 成 功 刻画 了 肌肉 耦合 关 
系 强度 。Reilly 和 Delis [r4] 提出 利用 基于 CE 的 GCMI 来 度量 EMG 信号 之 
间 的 时 空 关 联 关系 ， 再 利用 矩阵 分 解 的 降 维 方法 来 发 现 EMG 信号 时 空 关联 中 
的 基本 的 肌肉 协同 模式 。 他 们 采集 了 人 执行 点 到 点 动作 运动 的 EMG 数据 ， 将 
方法 应 用 于 数据 ， 得 到 了 有 生理 学 意义 的 肌肉 协同 时 空 模式 。Zhu 等 [rs] 提出 
了 基于 CE 的 表示 TE， 再 利用 R E copula 估计 CE 进而 估计 TE。 他 们 将 该 
方法 应 用 于 上 肢 肌 肉 间 耦 合 网 络 的 研究 ， 基 于 疲劳 / 非 疲劳 状态 下 上 肢 肌 肉 运动 
的 SEMG 数据 构建 了 肌肉 耦合 网 络 ， 发 现 疲劳 状态 下 的 肌肉 群 间 耦 合 关系 较 非 
疲劳 状态 逐渐 加 深 。 金 国美 等 [76] 提出 利用 小 波 分 析 和 CE 估计 相 结合 的 方法 ， 
分 析 健 康 人 自主 运动 下 的 肌肉 疲劳 状态 的 SEMG 信和 号 数据 ， 发 现在 肘 关节 届 
运动 中 ， 肌 间 耦 合 强度 在 Beta 与 gamma 频段 最 为 显著 ， 协 同 肌肉 对 耦合 强度 
比 搬 抗 肌肉 对 耦合 强度 大 ; 疲劳 后 的 耦合 强度 相对 于 疲劳 前 有 所 增强 。 


5.16 计算 神经 学 


计算 神经 学 是 利用 计算 理论 和 方法 来 研究 和 理解 神经 系统 的 功能 和 机 理 的 
学 科 ， 研 究 如 何 描述 生物 神经 元 对 信和 号 刺激 的 个 体 和 群体 响应 等 问题 。 神 经 可 
塑性 (neural plasticity) 是 指 神经 元 网 络 对 外 界 刺激 的 适应 性 结构 变化 , 构建 可 
塑性 理论 模型 是 计算 神经 学 关注 的 主要 问题 之 一 。Leugering 和 Pipa [77] 基于 
Copula 理论 提出 了 一 个 神经 元 群体 可 塑性 的 理论 框架 ， 构 建 了 一 种 自 适应 网 络 
模型 ， 可 以 在 未 知 模型 输入 变化 的 情况 下 保持 模型 输出 的 不 变性 ，CE 在 该 框架 
中 用 于 度量 神经 元 群 的 统计 特性 , 衡量 输入 输出 之 间 的 信息 量 。 神 经 元 之 间 的 信 
息 传 输 分 析 是 计算 神经 学 的 另 一 个 重要 问题 。 分 析 计 算 神 经 元 之 间 的 信息 传输 
关系 需要 涉及 多 个 神经 元 之 间 的 MI 的 分 解 。 部 分 信息 分 解 (Partial Information 
Decomposition) 就 是 将 MI 分 解 为 协同 (Synergy), TT (Redundancy) 和 独 
特 信 息 (Unique Information) 三 个 部 分 的 理论 。 基 于 CE 理论 和 方法 , Pakman 
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等 [gl 提出 了 一 种 估计 独特 信息 的 方法 ， 并 应 有 


处 理 。 


5.17 


心理 学 
大 脑 是 一 个 分 布 式 的 网 络 系统 。 它 不 仅 探 人 


il eA, zh 
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于 分 析 多 个 神经 元 模型 的 信息 


变 内 部 生理 状态 ， 也 


影响 多 个 高 级 过 程 。 同 时 ， 内 脏 信 息 也 时 刻 受到 大 脑 的 监控 ， 也 就 意味 着 内 脏 


过 程 也 会 反映 到 皮层 活动 中 。 内 及 事件 相关 的 大 脑 活动 历 


植物 神经 系统 中 的 过 程 之 间 相 互 关 联 ， 而 信息 论 则 提供 了 研究 它们 之 间 关 系 的 


TH. Ravijts 


理 信 号 DEAP 


[ 究 是 一 个 重要 的 话题 。 


[r9] 研究 了 四 种 情绪 刺激 特征 ( 效 价 、 唤 醒 、 支 配 和 喜欢 ) 下 心 
跳 诱发 脑 电 位 (HEP) 的 时 间 交 互 近似 估计 问题 。 他 采用 了 用 于 情绪 分 析 的 生 
数据 集 ， 利 用 基于 CE 的 GCMI 方法 估计 了 MI、 协同 和 元 余 等 


统计 量 ， 用 于 度量 不 同情 绪 刺 激 下 HEP 上 的 时 间 交 互 。 实 验 发 现 了 文 配 和 喜欢 
情绪 刺激 下 HEP 上 的 时 间 交 互 现象 ， 第 一 次 揭示 了 情绪 感知 调制 的 HEP. 的 时 


序 特 性 。 


5.18 


系统 生物 学 


系统 生物 学 的 一 个 主要 任务 是 通过 生化 运动 学 模型 ， 研 究 调控 、 信 和 号 传导 
和 代谢 过 程 之 间 的 交互 。 建 立 这 样 的 模型 需要 选择 合适 的 模型 输入 变量 ，MI 是 


变量 选择 的 工 


具 之 


。 但 常用 的 KNN 的 


IE» Charzyíska 和 Gambin 


之 间 的 关系 们 i 
和 蛋白 和 Mdm2 
统 的 本 地 敏感 
析 结 果 。 


MI 估计 常常 是 有 偏差 的 ， 需 


BO 提出 了 全 


十 MI 时 ， 校 正 效 果 显 著 。 作 者 将 方法 应 月 


要 进行 修 


il 差 校正 方法 ,并 发 现 当 利用 MI 和 CE 


连接 酶 之 间 的 负 反 馈 环 


于 受到 广泛 研究 的 p53 
路 问题 模型 上 ， 结 果 显 示 此 方法 能 够 比 传 


生 分 析 方 法 得 出 更 准确 地 反映 系统 行为 的 模型 输入 输出 关系 的 分 


系统 生物 学 对 分 子 生 物 学 数据 分 析 的 主要 目的 之 一 是 建立 复杂 生物 现象 的 


网 络 和 动态 机 种 


i! 


|， 以 分 析 生 命 组 织 的 功能 和 行为 。MI 在 构建 


因 通 路 网 络 的 过 


程 中 发 挥 基础 性 作用 。Farhangmehr 等 [B1] 首次 提出 在 网 络 构建 中 利用 CE 来 


估计 MI。 


计算 效率 。 


也 们 将 方法 应 月 


5.19 生物 信息 学 


生物 信息 学 (Bioinformatics) 是 
数据 ) 
在 基因 分 子 层面 观察 某 一 4 
反映 
序列 数据 之 间 相 互 作 月 


于 醇 母 细胞 周期 数据 ， 将 分 析 得 到 的 动态 网 络 与 京都 


tk 因 组 学 百科 数据 库 进行 了 对 照 。 实 验 结果 显示 ， 利 用 CE 来 估计 MI 提高 了 


通过 算法 分 析 基 因数 据 (包括 基因 表达 谱 
来 研究 生命 和 疾病 机 理 的 新 兴学 科 。 基 因 表 达 谱 是 利用 DNA 微 阵列 技术 
E 命 组 织 动态 得 到 的 数据 ， 从 而 能 够 在 基因 组 水 平 上 


生命 系统 的 各 种 现象 和 机 理 。Wieczorek 和 Roth 提出 了 一 种 研究 时 间 
的 分 析 方 法 ， 称 为 因果 压缩 (Causal Compression). 5j 
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传统 的 分 析 全 时 间 序 列 之 间 的 因果 关系 不 同 ， 该 方法 研究 了 
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于 定向 


信息 (Di- 


rected Information) 分 解 的 时 间 序 列 间 相互 因果 作用 的 稀 朴 表达 ， 并 据 此 给 出 


了 时 序 因果 分 割 和 因果 二 分 图 发 现 两 类 问题 的 解法 。 
价 性 , 作者 证 明了 该 方法 只 与 数据 
求解 方法 。 作 者 将 该 方法 应 月 


T CE 与 MI 之 间 的 等 
分 布 的 Copula 密度 函数 有 关 ， 并 据 此 设计 了 


(NCBI/GEO 查询 号 : GSE7123) 
疗 的 重组 丙 型 肝炎 病毒 核心 蛋白 基因 型 1 感染 的 基因 表达 谱 时 序数 据 ， 关 注 了 


在 干扰 素 信 号 传导 中 具有 重要 交互 角色 的 两 个 
导 抗 病毒 基因 IFITS, 分别 生 成 了 二 者 在 有 效 救治 和 无 效 救 治 病 人 内 相互 作用 
果 , 干扰 素 疗 法 消除 了 大 多 数 有 效 救治 病人 体内 
因 之 间 的 关联 ， 而 无 效 救治 病人 体内 的 关联 则 不 受 影响 。 同 时 ， 分 析 表 明 
两 种 病人 救治 前 后 二 者 之 间 均 存在 因果 交互 作 月 


的 不 同 。 研 究 发 现 ,根据 分 析 结 


两 种 


的 IFIT3 对 后 期 的 STAT1 的 影响 更 显著 ， 这 与 已 有 研究 结论 相符 合 。 


很 多 疾病 的 发 生 


tions: CNVs) 指 长 度 大 于 1kb 的 DNA 片段 的 变异 ， 


在 。 作 为 重要 的 


于 NCBI 数据 库 中 的 人 类 C 型 肝炎 病毒 感染 数据 
， 研 究 了 接受 了 育 乙 二 醇 干 扰 素 和 利 巴 韦 林 治 


ED]: 转录 子 STAT1 和 干扰 素 诱 


有 ， 但 对 于 有 效 救治 病人 ， 早 期 


因 结 构 变 异 有 关 。 拷 贝 数 变 异 (Copy Number Varia- 


在 人 类 基因 组 中 大 量 存 


CNVs 包含 了 大 量 DNA 序列 、 疾 病 点 和 功能 单元 ， 


能 为 疾病 研究 提供 线索 。 研 究 表明 ， 多 种 瘤 证 的 形成 和 发 展 与 不 同 的 CNVs 有 


关 。 因 此 ， 发 现 不 同 基因 的 CNVs 与 不 同 痛 症 之 间 的 关系 有 助 于 研究 癌症 病因 
和 诊断 方法 。 从 大 量 的 CNVs 的 


息 学 的 一 个 重要 问题 。Wu 和 Li (8384) 提出 了 一 种 


因 特 征 中 选择 出 与 癌症 相关 的 特征 是 生物 信 
因 选 择 方法 ， 称 为 相关 元 


余 和 交互 分 析 (Correlation Redundancy and Interaction Analysis: CRIA) Jy 


法 ， 根 据 CNVs 选择 与 瘤 症 有 关 的 


因 ， 以 用 于 癌症 分 类 。CRIA 方法 利用 了 


CE 的 多 变量 相关 性 特性 ， 设 计 了 基因 特征 交互 强度 度量 ， 用 于 筛选 与 瘤 症 类 型 


相关 性 强 的 基因 。 他 们 将 该 方法 应 有 
其 中 的 6 种 癌症 数据 ， 选 择 出 了 200 个 与 癌症 有 关 的 


HF cBioPortal 的 癌症 基因 组 数据 ， 利 用 了 
因 。 为 了 验证 算法 的 有 


效 性 ， 他 们 基于 亚利桑那 州立 大 学 的 数据 将 方法 与 其 他 8 种 基因 选择 算法 进行 


了 对 比 ， 结 果 显 示 CRIA 方法 选择 的 
基于 基因 测序 数据 推理 构建 


量 大 量 单个 细胞 的 全 


因 调控 动 态 过 程 , 因此 可 以 利 月 


2%. 280% [Sa] 


为 GRN-PAGATE, 其 中 采用 了 
挑战 中 的 Ecoli 数据 和 小 鼠 上 
法 ， 并 与 同类 方法 进行 了 对 比 。 实 验 结果 表明 ， 该 方法 在 Ecoli 数据 上 


因 能 够 更 准确 # 


H TE SERM 
提出 了 一 种 基于 TE 因果 关系 分 析 的 


也 预测 瘤 症 类 型 。 


不 胎 早 期 血液 发 育 的 单 细 


因 调 控 网 络 是 生物 信息 学 的 主要 问题 之 一 ， 
目的 是 理解 基因 功能 和 识别 基因 表达 的 动态 过 程 。 单 细胞 测序 技术 能 够 同时 测 
因 组 表达 情况 ， 时 序 单 细 胞 测序 数据 则 反映 了 细胞 中 基 
E 时 序 因果 分 析 工 具 发 现 基因 调控 网 
因 调 控 网 络 构 建 方法 , 称 
T CE 的 TE 佑 计 方 法 。 他 分 别 在 DREAM3 
胞 测序 数据 上 验证 了 该 方 


7 


具有 与 


GRNTSTE 同等 的 性 能 ， 略 高 于 DynGENI3 和 SCRIBE 等 同类 方法 ; 在 小 鼠 
胚胎 数据 上 ， 该 方法 能 够 有 效 发 现 其 他 方法 未 能 发 现 的 关键 基因 调控 关系 ， 性 


能 优 于 同类 对 比方 法 。 
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5.20 ”临床 诊断 学 

心脏 病 是 最 常见 的 临床 疾病 之 一 。 医 生 已 经 积累 了 丰富 的 心脏 病 临 床 诊断 
经 验 ， 可 以 通过 各 种 生理 测量 结果 作出 诊断 决策 。 在 此 经 验 基础 上 开发 智能 临 
床 诊断 模型 是 业界 长 期 追求 的 目标 ， 开 发 此 类 模型 的 关键 在 于 选择 一 组 生理 测 
量变 量 来 构建 预测 诊断 模型 。 基 于 著名 的 UCT 心脏 病 数据 集 [Iss], 马 健 (9) 提 
出 采用 CE 作为 变量 选择 方法 , 用 以 选择 一 组 生理 变量 构建 诊断 模型 。 该 数据 集 
包含 了 来 自 世 界 四 地 真实 的 临床 心脏 病 生 理 测量 和 诊断 数据 ， 其 中 13 个 生理 测 
量变 量 被 医学 专家 认定 为 是 临床 相关 的 。 实 验 结果 表明 ，CE 方法 选择 出 了 13 
个 临床 医生 认定 变量 中 的 11 个 变量 ， 是 对 比方 法 中 最 多 的 ， 从 而 得 到 了 最 好 的 
预测 准确 率 。 同 时 ，CE 方法 还 发 现 了 认定 变量 以 外 其 他 与 诊断 相关 的 变量 ， 为 
临床 进一步 检验 提供 了 新 的 参考 。( 更 多 内 容 见 B. 引 

糖尿 病 是 另 一 种 常见 临床 疾病 . 对 糖尿 病人 的 病情 管理 与 临床 诊治 结果 (发 
病 率 和 致死 率 ) 密切 相关 ， 因 此 建立 严格 的 糖尿 病 患 者 住院 管理 流程 对 其 安全 
十 分 重要 ， 这 就 需要 对 病情 管理 标准 进行 分 析 研 究 。 为 了 评估 住院 患者 的 救治 
效果 ， 美 国 业界 建立 了 健康 事实 (Health Facts) 数据 集 P43], MAT 130 所 
美国 医院 和 救治 网 络 的 糖尿 病 患者 的 数据 。 基 于 该 数据 集 1999 至 2008 年 的 10 
年 间 101,721 名 住院 患者 的 数据 ，Mesiar 和 Sheikhi (86) 利用 CE 变量 选择 方 
法 建立 预测 模型 ， 用 于 从 其 他 49 个 变量 预测 “是 否 已 用 药 ”变量 ， 取 得 了 和 良好 
的 预测 效果 , 在 仅 选 择 使 用 20 个 变量 的 情况 下 就 获得 了 97.2% 的 准确 率 ， 增进 
了 对 用 药 相 关 变 量 的 认识 ， 构 建 了 合理 用 药 评价 模型 。 

癌症 预后 是 指 基 于 癌症 病情 的 临床 表现 和 诊断 结果 ， 对 病情 的 未 来 发 展 进 
行 评估 ， 以 帮助 进一步 的 临床 决策 。 临 床 评估 考虑 的 预后 因子 在 评估 中 至 关 重 
要 ， 但 又 常常 数量 众多 ， 需 要 进行 分 析 选 择 。 比 如 ， 肺 癌 的 预后 因子 就 多 达 百 
种 。 预 后 模型 是 在 预后 因子 的 基础 上 建立 的 病人 风险 预测 模型 ， 是 癌症 治疗 中 
重要 的 临床 工具 。 马 健 (87) 提出 了 一 种 基于 CE 的 生存 分 析 变 量 选择 方法 ， 并 
将 其 应 用 于 预后 因子 的 选择 问题 ， 以 建立 预测 病人 生存 时 间 的 预后 模型 。 他 基 
于 两 个 公开 的 肺癌 数据 验证 了 该 方法 ， 发 现 其 能 选择 符合 临床 标准 的 预后 因子 ， 
并 获得 较 同 类 方法 更 好 的 预测 模型 ， 在 保证 模型 可 解释 性 的 同时 具有 更 好 的 预 
测 性 能 。 

乳腺 癌 是 女性 最 常见 的 恶性 肿瘤 之 一 ， 在 我 国 的 发 病 率 和 死亡 率 都 有 逐年 
上 升 的 趋势 , 严重 威胁 着 女性 的 身体 健康 和 家 庭 幸 福 。 利用 统计 方法 分 析 临 床 数 
据 并 构建 诊断 模型 来 辅助 临床 诊断 决策 ， 可 以 提高 医生 工作 效率 并 降低 误诊 率 ， 
从 而 促进 患者 健康 改善 。 付 金 露 (BS) 提出 采用 特征 选择 的 方法 构建 乳腺 癌 患 考 
预后 模型 ， 采 用 了 Lasso, CE 和 RFREF 三 种 特征 选择 方法 , 分 析 了 SEER 数 
据 库 中 2010-2014 年 的 乳腺 癌 患 者 临床 诊断 数据 ， 利 用 三 种 方法 选择 的 特征 分 
别 构建 了 逻辑 回归 、 随 机 森林 、XGBoost 和 Stacking 四 种 模型 ， 用 以 预测 患者 
5 年 生存 状态 。 结 果 表 明 , 利用 CE 选择 的 特征 构建 的 逻辑 回归 模型 给 出 了 最 高 
的 预测 准确 率 (96.84%)。 
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白内障 是 眼科 的 常见 疾病 , 是 导致 患者 失明 的 最 主要 病因 。 白内障 超声 乳化 
手术 (Phacoemulsification) 是 世界 各 国治 疗 白内障 的 首选 手术 治疗 方式 。 尽管 
该 手术 已 十 分 成 熟 ， 但 临床 仍然 可 能 会 导致 术 后 角膜 水 肿 等 并 发 症 ， 从 而 影响 
视力 恢复 并 造成 患者 不 适 。 构 建 基于 风险 因素 的 角膜 水 肿 风 险 预 测 模型 在 临床 
十 分 必要 。Luo 等 [B9| 提出 利用 CE 方法 构建 术 后 角膜 水 肿 风 险 预 测 模型 ， 将 
方法 应 用 于 临床 178 名 患者 的 数据 ， 从 数据 的 17 个 变量 中 筛选 预测 变量 ， 最 终 
将 临床 预测 模型 使 用 的 四 种 变量 (糖尿 病 、 最 佳 矫 正视 力 、 ALR Bi 
散 能 量 ) 减少 为 两 种 (最 佳 矫正 视力 和 累积 耗 散 能 量 ) ， 且 不 影响 预测 精度 。 
果 分 析 表 明 ， 利 用 CE 得 到 的 预测 模型 具有 临床 应 用 价值 ， 
能 的 情况 下 减少 预测 需要 收集 的 临床 信息 。 

EDM LE (Aortic Regurgitation) 是 一 种 常见 的 心脏 状 膜 疾病， 主要 症 
状 是 在 心脏 舒张 期 , 血液 从 主动 脉 回流 到 左 心室 。 主动 脉 匆 膜 置换 手术 是 主动 脉 
办 反 流 的 传统 治疗 方式 之 一 。 左 心室 射 血 分 数 (Left Ventricle Ejection Fraction: 
LVEF) 是 一 项 衡量 心脏 功能 的 重要 指标 ， 研 究 其 在 手术 前 后 的 改善 关系 可 以 
为 瓣膜 置换 手术 时 机 选择 和 效果 预测 提供 参考 证 据 。Sunoj 和 Nair [90] 利用 
survival copula 扩展 了 CE 概念 ， 提 出 了 一 种 称 为 Survival Copula Entropy 
(SCE) 的 新 概念 ， 用 于 衡量 生存 函数 相关 变量 之 间 的 依赖 关系 。 他们 将 SCE 应 
用 于 主动 脉 瓣 置换 手术 临床 数据 ， 发 现 了 手术 前 后 LVEF 之 间 的 正 相关 关系 。 

脑 及 痪 是 一 种 高 致死 率 肿瘤， 约 占 全 身 肿瘤 的 5%， 近 年 来 在 我 国 发 病 率 旺 
le 脑 肿瘤 病变 具有 形态 多 样 、 位 置 不 定 的 特点 ， 诊 断 难度 大 ， 基 于 无 侵 

医学 影像 的 分 类 识别 是 主要 的 临床 诊断 方式 。 从 肿瘤 医 
25 05 s SB, RT DARD EET, AAT 
大 量 的 研究 。 如 何 提取 和 选择 图 像 的 定量 特征 是 构建 辅助 诊断 模型 的 关键 问题 。 
潘 红 宇 [pi] 提出 了 一 种 此 类 特征 选择 方法 ， 首 先 利用 CE 等 相关 性 度量 初始 化 
特征 集合 ， 再 利用 灰 狼 优化 算法 以 分 类 性 能 为 目标 优化 特征 集合 。 他 利用 来 自 
重庆 医科 大 学 附属 第 一 医院 、 西 南 医院 和 四 川 省 肿瘤 医院 的 102 例 具 有 ATRX 
突变 的 低级 别 脑 胶 质 瘤 患者 影像 数据 ,提取 了 五 类 共 5530 个 影像 组 学 特征 ， 结 
果 表 明 ， 相 较 对 比方 法 ， 提 出 的 方法 在 选择 使 用 了 最 少 (13 个 ) 的 特征 的 情况 
下 得 到 了 最 优 的 分 类 性 能 ， 且 所 选 特征 与 ATRX 突变 特征 状态 相关 ， 具 有 作为 
生物 标志 物 的 潜力 。 

脉搏 波 是 传统 中 医 的 主要 间 诊 方式 ， 因 其 携带 了 复杂 多 样 的 病理 信息 ， 在 
一 定 程度 上 反映 了 心血 管 系统 的 生理 状态 。 传 统 中 医 的 诊 脉 主要 依靠 名 医 的 个 
人 经 验 ， 研 究 脉搏 波 数据 的 分 析 算 法 ， 对 糖尿 病 和 高 血压 等 常见 疾病 的 无 创 诊 
断 具 有 重要 意义 ， 有 助 于 传统 中 医 的 科学 化 发 展 。 汤 宇 飞 PA 提出 了 一 种 基于 
图 卷 积 神经 网 络 的 多 模 态 脉搏 波 诊断 算法 ， 通 过 将 脉搏 波 转换 为 包含 互补 的 病 
理 信息 的 三 通道 图 像 ， 再 利用 ResNet 提取 图 像 特征 , 最 后 利用 CE 等 相关 度量 
得 到 反映 脉搏 波 信号 间 时 间 相关 性 的 邻接 矩阵 构建 图 卷 积 神经 网 络 ， 从 而 进行 
o. 他 在 实际 腕 部 和 指 尖 的 脉搏 波 数据 的 基础 上 ， 对 高 血压 和 糖尿 


El 
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病 患者 的 健康 状态 进行 分 类 ， 结 果 表 明 算 法 可 以 得 到 99% 以 上 的 预测 准确 率 。 


5.21 老年 医学 


阿尔 兹 海 默 病 ( Alzheimer's disease, tL PRAIRIE) 是 老年 人 面 对 的 主要 神经 
退行 性 疾病 之 一 , 临床 表现 为 认 知 能 力 的 过 度 衰退 等 。 早期 第 查 和 诊断 可 以 帮助 
痴呆 症 患 者 和 家 庭 及 早 干预 并 管理 病情 发 展 , 可 以 有 效 提高 病人 生活 质量 , 降低 
家 庭 和 社会 成 本 和 负担。 简易 精神 状态 量 表 (Mini-Mental State Examination: 
MMSE) 是 临床 广泛 采用 的 认 知 能 力 得 查 工具 之 一 。 马 健 [3] 通过 利用 CE 分 
析 了 手指 扣 击 运动 (finger tapping) 的 特征 和 MMSE 之 间 的 关联 强度 ， 发 现 一 
组 与 MMSE 相关 联 的 特征 ， 包 括 扣 击 频率 (或 扣 击 次 数 或 扣 击 平均 时 间 间 隔 ) 
等 。 在 此 关联 关系 的 基础 上 , 他 们 构建 了 从 手指 扣 击 特征 到 MMSE 的 预测 模型 ， 
取得 了 良好 的 预测 效果 。 此 预测 模型 有 望 用 于 痴呆 症 等 疾病 的 认 知 能 力 第 查 工 
作 中 。 
帕 金森 病 (Parkinson’s disease: PD) 是 另 一 种 常见 的 神经 退行 性 疾病 , 临床 
表现 为 动作 迟缓 和 运动 功能 障碍 等 症状 ,重复 经 颅 磁 刺 激 (repititive transcranial 
magnetic stimulation: rTMS) 是 利用 脉冲 磁场 作用 于 中 枢 神 经 系统 ， 以 改善 生 
理 功能 的 临床 治疗 技术 ， 广 泛 应 用 于 神经 、 精 神 类 疾病 的 治疗 ， 并 在 近年 应 用 
于 PD 康复 治疗 的 研究 中 ， 以 期 缓解 患者 症状 并 改善 运动 功能 。 李 润泽 等 [od] 
研究 了 rTMS 对 PD 患者 运动 症状 辅助 治疗 的 神经 调控 机 制 ， 利 用 基于 CE 的 
GCMI 等 方法 分 析 了 rTMS 治疗 前 后 的 EEG 数据 ， 构 建 了 脑 功能 网 络 连接 矩 
阵 并 得 到 3 种 网 络 特征 参数 。 实 验 结果 表明 rTMS 主要 改变 PD 患者 的 beta 
和 gamma 振荡 ， 其 中 运动 皮层 的 相应 变化 可 能 与 运动 功能 改善 有 关 。 

跌倒 是 老年 人 面 对 的 重大 健康 风险 之 一 ,需要 科学 管理 和 及 早 干预 。 跌倒 预 
测 是 管理 跌倒 风险 的 重要 手段 之 一 。 起 立行 走 试验 (Timed Up and Go: TUG) 
是 一 种 主要 的 跌倒 风险 评估 工具 。 马 健 [oo] 提出 了 一 种 结合 视频 分 析 和 机 器 学 
习 技术 的 跌倒 风险 预测 方法 。 该 方法 首先 从 老年 人 进行 TUG 测试 的 视频 中 分 
析出 人 体 3D 姿态 信息 ， 再 由 一 段 时 间 的 姿态 信息 序列 计算 出 一 组 步 态 特 征 ， 通 
过 利用 CE 分 析 步 态 特征 和 跌倒 风险 指数 之 间 的 关联 关系 ， 选 择 出 一 组 与 风险 
关联 的 步 态 特征 (包括 步 幅 、 步 态 速度 和 步 态 速度 的 方差 等 ) ， 最 后 用 此 特征 作 
为 输入 构建 跌倒 风险 的 预测 模型 。 该 方法 在 真实 数据 上 的 实验 显示 了 和 良好 的 预 
测 效果 。 此 分 析 结 果 也 表明 了 步 态 特征 反映 的 行动 能 力 与 跌倒 风险 之 间 的 内 在 
联系 ， 使 得 模型 具有 临床 意义 的 可 解释 性 。 

在 以 上 两 个 研究 的 基础 上 ， 马 健 [06] 还 利用 CE 对 手指 扣 击 运动 特征 数据 
和 步 态 特征 数据 进行 了 联合 分 析 ， 发 现 了 某 些 手指 运动 特征 与 跌倒 风险 之 间 具 
有 一 定 的 关联 性 。 这 一 发 现 为 首次 发 现 ， 揭 示 了 衰老 过 程 中 认 知 能 力 和 行动 能 
力 之 间 的 关联 ， 提 供 了 科学 实验 证 据 ， 加 深 了 对 衰老 的 生理 特征 的 认识 和 理解 。 
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5.22 ”精神病 学 


抑郁 症 是 一 种 常见 的 情绪 相关 的 心理 精神 障碍 ， 全 世界 约 有 3.5 亿 名 患者 
为 此 病 所 困扰 ,对 其 进行 研究 对 人 类 健康 具有 重要 意义 。 脑 电 图 (EEG) 是 一 种 
非 侵入 式 的 大 脑 活动 电信 号 测量 手段 , 广泛 应 用 于 大 脑 疾病 的 研究 中 。 脑 功 能 区 
络 是 在 EEG 信号 基础 上 构建 的 反映 大 脑 活动 的 功能 性 指标 ， 可 采用 MI, HIF 
性 等 多 种 方法 构建 此 类 网 络 。 张 婷 婷 等 [97,08] 提出 基于 相干 性 虚 部 (Imaginary 
part of Coherency) 构建 的 脑 网 络 连通 性 指标 来 研究 抑郁 症 患 者 识别 问题 。 他 们 
利用 CE. Relief 过 滤 等 特征 选择 方法 对 脑 电网 络 连 通 特征 进行 选取 ， 发 现 利用 
CE 和 Relief 过 滤 联 合 得 到 的 相干 性 在 线 反馈 指标 特征 集合 能 够 有 效 区 分 抑 邦 
证 患者 和 健康 人 和 群 。 


5.23 公共 卫生 学 


流行 病 是 公共 卫生 学 的 重要 话题 ， 流 行 病 患 者 的 及 时 诊断 对 控制 流行 病 的 
传播 至 关 重 要 。 感染 了 流行 病毒 的 病人 往往 伴 有 发 热 等 症状 , 很 难 与 正常 的 发 热 
病人 进行 区 分 。 目 前 正在 流行 的 新 型 冠状 病毒 患者 就 具有 这 样 的 发 热 症状 ， 基 
于 临床 数据 开发 能 够 区 分 病毒 感染 者 和 正常 流感 病人 的 技术 成 为 一 个 紧迫 的 问 
题 。 然 而 ,相关 的 症状 有 10 几 种 ， 如 何 选择 合适 的 变量 集合 成 为 研究 成 功 的 关 
键 。Mesiar 和 Sheikhi [86] 基于 CE 变量 选择 方法 , 利用 真实 的 临床 数据 , 分 析 
了 新 冠 患者 诊断 相关 的 19 种 症状 变量 ， 发 现年 龄 、 疲 劳 和 恶心 呕吐 是 最 重要 的 
诊断 变量 ， 可 以 使 诊断 达到 85% 的 诊断 准确 率 ， 如 果 将 诊断 变量 增加 到 15 个 ， 
准确 率 可 以 提高 到 91.490. 
高 血压 是 全 球 首要 致死 病因 ， 对 人 群 健康 构成 严重 威胁 。 全 基因 组 关联 研 
究 表明 多 个 基因 与 高 血压 密切 相关 。 已 有 多 个 研究 报道 工 型 细胞 膜 钙 离 子 转运 
酶 基因 (ATP2B1) 与 收缩 压 和 舒张 压 相关 联 。 该 基因 有 21 个 CpG 位 点 。 研 
究 该 基因 及 其 CpG 位 点 与 高 血压 的 关系 是 一 个 新 的 重要 问题 。Purkayastha 和 
Song [61] 提出 了 一 种 新 的 非 对 称 可 预测 性 概念 ， 称 为 非 对 称 MI (AMI), FA 
用 CE 理论 给 出 了 其 估计 方法 。 他 们 将 该 方法 应 用 于 ELEMENT 数据 集 ， 分 析 
525 个 年 龄 在 10-18 岁 之 间 的 儿童 的 数据 ， 发 现 ATP2B1 与 舒张 压 相 关联 ， 证 
实 了 已 有 的 发 现 ; 同时 发 现 该 基因 的 CpG 位 点 CG17564205 与 舒张 压 相 关联 ， 
且 根 据 AMI 判断 ， 和 舒张 压 对 该 位 点 具有 预测 性 ,这 一 新 发 现 表明 血压 可 以 改变 


PSI 


p 


5.24 经 济 学 


经 济 政策 的 评估 需要 定量 分 析 ， 定 量 分 析 方法 可 以 科学 、 客 观 地 评估 政策 
效果 。Shan 和 Liu [99,100] 提出 了 一 种 可 以 定量 分 析 政 策 组 合 效果 的 决策 树 构 
建 方法 ，CE 被 用 来 度量 非 线性 相关 关系 并 构建 决策 树 , 方法 的 思想 是 利用 基于 
CE 定义 的 信息 增益 来 构建 用 以 区 别 不 同 政策 对 象 群 体 的 政策 决策 树 , 由 树 的 叶 
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子 节 点 来 表示 不 同 政策 组 合 对 应 的 群体 划分 。 他 们 将 该 方法 应 用 于 发 展 经 济 学 


领域 ,评估 我 国 的 减 贫 政 策 效 果 ， 研究 分 析 了 2018 年 由 政府 开展 的 贫困 家 庭 状 


况 普 查 的 问卷 调查 数据 中 
否 有 抵押 贷款 是 影响 家 庭 收 入 的 主要 政策 因素 ， 
不 同 目标 贫困 群体 收入 结 


验证 了 减 贫 政策 的 有 效 性 
将 同样 的 方法 应 有 


四 川 省 的 数据 。 分 析 发 现 ， 就 业 政策 、 新 收入 来 源 和 是 


揭示 了 这 些 政策 组 合 对 应 的 


构 的 不 同 特征 。 该 方法 在 无 历史 数据 的 情况 下 ， 评 估 
发 现 了 更 加 有 效 的 政策 组 合 方案 。Zhang 等 
于 上 述 调查 数据 中 河南 省 的 数据 ， 得 出 了 基本 相同 的 结论 。 


经 济 学 的 核心 目的 是 发 现 因果 关系 。 传 统 的 经 济 学 依靠 推理 建 模 以 及 基于 
此 的 实验 设计 。 因 果 发 现 是 从 数据 中 发 现 因 果 关系 的 方法 ， 将 其 与 经 济 学 理论 
模型 相 结合 是 设计 经 济 学 实验 的 新 路 径 。Bossemeyer [102] 基于 CE 和 MI 的 关 


系 提 出 了 一 种 条 件 独立 性 测试 算法 ， 并 将 其 应 月 


昌 于 因果 结构 发 现 的 PC 算法 中 。 


作者 利用 新 PC 算法 研究 了 经 济 学 中 的 议价 理论 ， 研 究 讨 价 还 价 行为 中 互惠 关 
系 的 作用 ， 以 及 响应 时 间 在 这 个 过 程 中 的 作用 。 作 者 将 算法 应 用 于 eBay 的 Best 
Offer 平台 数据 ， 发 现 交易 双方 让 价 行为 之 间 存 在 关联 ， 印 证 了 互惠 理论 ; 同时 ， 
发 现 了 对 手 还 价 响应 时 间 对 下 一 次 要 价 存在 因果 效应 。 


产业 链 是 指 产 业 部 门 之 间 


于 经 济 关 系 形成 的 链条 式 关联 关系 形态 。 产 业 


链 基于 资源 要 素 分 配 和 专业 化 分 工 等 多 种 因素 构成 上 下 游 关系 ， 来 进行 价值 互 


H, 上游 企 业 向 下 游 企业 提供 
构成 关联 互动 关系 。 产 和 


连 各 环节 之 间 的 相关 怕 


品 和 服务 , 同时 接受 下 游 企业 的 反馈 信息 ,从 而 
FE 分 析 ， 对 产业 布局 管理 和 投资 


组 合 设计 具有 重要 参考 意义 。 韦 颖 吏 (103) 基于 CE 概念 ， 提 出 了 pair-copula 


RRAZ, HTE 
FIAT” WEB AT EA 


发 现 该 产业 链 上 游 相 关 ; 
I EPEA 

投资 者 情绪 对 财经 
研究 的 重要 问题 之 一 。 由 于 社交 媒体 和 


EBOR, POX H 


国家 间 传 播 ,， 进 


目 关 关系 。 她 将 该 概念 应 用 于 国内 畜 禽 
于 该 领域 内 9 家 上 中 下 游 主要 上 市 企 
业 的 股票 价格 数据 , 运用 pair-copula 炉 度 量 了 产业 链 内 上 中 下 游 之 间 的 相关 性 ， 
E 较 弱 ; 无 条 件 相关 性 强 , 条件 相关 性 


市 场 有 着 广泛 而 多 面 的 影响 ， 投 资 者 情绪 分 析 是 经 济 学 
和 场 关系 整合 ， 投 资 者 情绪 会 在 人 群 和 
而 形成 传播 网 络 , 使 得 局 部 情绪 波动 得 以 迅速 扩散 ,造成 系统 性 


影响 。Han 和 Zhou [104] 提出 了 一 个 基于 小 波 分 析 、 传 弟 炉 和 网 络 分 析 组 合 的 


方法 ， 研 究 公 司 间 投 资 者 情绪 传播 的 模式 ， 其 中 采用 了 基于 CE 的 传递 箭 佑 计 


方法 。 他 们 采 月 


H 2015-2021 年 间 的 中 


索引 数据 来 代表 投资 者 情绪 ， 将 其 月 


国 137 家 新 能 源 汽 车 上 市 公司 的 百度 搜索 
H/T ORAS REEL, EJ 


构建 情绪 传播 网 络 ， 最 后 用 网 络 分 析 的 方法 分 析 短 期 和 长 期 传播 特征 。 他 们 发 


现 ， 投 资 者 情绪 表现 为 短期 局 部 活跃 ， 并 具 
通胀 预期 直接 影响 


日 逐渐 增长 的 进化 模式 。 


和 场 主体 的 经 济 行为 , 是 通胀 的 成 因 之 一 。 研究 通胀 与 预 


期 的 关系 是 一 个 重要 的 课题 ， 特 别 对 中 央 银 行 决 策 者 具有 重要 价值 。Ardakani 


提出 利用 CE 分 析 预 期 对 通胀 的 人 
Information) 是 CE 的 下 界 ， 可 以 作为 通胀 和 预期 关系 的 最 小 度量 值 。 他 利用 


量 ， 证 明了 负 费 舍 尔 信息 (Fisher 
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CE 等 工具 分 析 了 美国 1982 至 2022 年 逐 月 通胀 指数 (CPI 和 PPI) 和 通胀 预 
期 指数 ( 密 欣 根 大 学 调查 指数 、 克 利夫 兰 联 邦 储备 银行 2 4E. 10 年 和 30 年 预期 
指数 ) 数据 ， 发 现 30 年 预期 与 通胀 之 间 CE 最 小 ， 说 明 其 提供 了 更 多 可 以 预测 
通胀 的 信息 。 此 研究 为 中 央 银 行 管控 预期 以 达到 通胀 目标 提供 了 一 个 有 力 工具 ， 
能 够 帮助 理解 不 同 预期 对 通胀 的 预测 能 力 ， 从 而 更 有 力 地 调控 通胀 。 


5.25 ”管理 学 


准确 预测 农产品 期 货 价 格 有 助 于 为 政府 相关 部 门 的 科学 决策 提供 参考 ， 因 
而 对 保障 国家 粮食 安全 具有 重要 意义 。 然 而 价格 预测 受 多 种 复杂 因素 的 影响 , 如 
国际 形势 、 市 场 情绪 博弈 等 。 因 此 ,识别 价格 的 影响 因素 对 构建 准确 的 价格 预测 
模型 至 关 重要 。An 等 [06] 提出 了 一 个 基于 历史 数据 和 文本 数据 的 融合 多 种 方 
法 的 混合 预测 框架 , 其 中 经 验 模 态 分 解 (Empirical Mode Decomposition: EMD) 
用 于 预 处 理 历 史 数据 , 动态 主题 模型 (Dynamic Topic Model: DTM) 和 情感 分 
析 用 于 提取 微 博文 本 信息 ， 再 利用 CE 等 方法 对 提取 的 因子 进行 筛选 ， 用 于 构 
建 预测 模型 。 作 者 在 两 个 实际 数据 上 验证 了 该 方法 框架 : 国家 统计 局 的 猪肉 价 
格 数据 和 大 连 商 品 交易 所 的 大 豆 期 货 价格 数据 ， 并 收集 了 相应 时 间 内 的 微 博文 
本 数据 。 在 实验 中 ， 作 者 将 CE 方法 与 同类 的 dCor 和 HSIC 方法 进行 了 对 比 ， 
结果 表明 ， 在 两 个 数据 上 ， 基 于 CE 的 预测 模型 都 给 出 了 最 好 的 预测 性 能 。 

库存 管理 是 企业 运营 管理 过 程 中 的 关键 环节 ， 也 是 管理 学 的 重要 问题 之 一 。 
报 童 问题 是 典型 的 单 周 期 库存 管理 模型 ， 一 直 是 本 领域 研究 的 焦点 。 近 年 来 ， 利 
用 数据 驱动 模型 和 方法 的 报 童 问题 研究 展现 出 比 传统 方法 的 优越 性 ， 进 而 成 为 
了 热门 话题 。Tian 和 Zhang [107] 提出 了 一 种 端 到 端的 算法 框架 ,利用 深度 学 习 
模型 从 在 线 商品 评论 等 特征 数据 中 预测 订单 数量 ， 其 中 采用 了 包括 CE 在 内 的 
方法 来 选择 模型 的 输入 特征 。 他 们 将 方法 应 用 于 汽车 库存 管理 问题 ， 基 于 2016 
至 2022 年 间 的 大 众 朗逸 汽车 的 历史 销售 量 、 革 网 站 的 评论 、 革 搜索 引擎 指数 、 
和 宏观 经 济 指数 等 数据 构建 了 模型 。 结 果 显 示 ， 本 方法 能 够 大 幅 减少 超额 成 本 
和 短缺 成 本 之 和 ， 与 同类 方法 相 比 减少 了 31.896 的 成 本 。 

中 国企 业 海外 并 购 面临 着 时 代 的 机 遇 和 挑战 。 探 究 影响 中 国企 业 海外 并 购 
% 国 内 外 各 种 因素 ， 分 析 并 购 的 短期 和 中 长 期 绩效 ， 具 有 重大 的 理论 和 现实 意 
Xe EME [108] 提出 利用 Copula VECM 模型 ， 分 析 与 海外 并 购 数量 强 关 联 的 
经 济 变量 对 并 购 的 影响 ， 特 别 考 虑 了 被 其 他 研究 者 忽视 的 宏观 经 济 变量 的 动态 
影响 。 由 于 此 类 经 济 变量 较 多 ， 容 易 使 构建 的 VAR 模型 复杂 度 增加 ， 导 致 估计 
模型 的 不 准确 性 。 因此， 他 提出 利用 CE 对 经 济 变量 进行 选择 后 再 建立 模型 。 他 
在 Wind 数据 库 中 选取 了 海外 并 购 数量 和 其 他 7 个 与 并 购 数量 可 能 关联 的 宏观 
经 济 变量 的 季度 数据 ， 通 过 CE 关联 度 分 析 后 ， 得 出 结论 认为 宏观 经 济 杠杆 率 、 
GDP、 货 币 供给 增长 率 和 汇率 四 个 宏观 经 济 因素 是 影响 我 国 海外 企业 并 购 活动 
不 可 忽视 的 重要 因素 。 他 进一步 分 析 论 述 了 所 选 变量 对 并 购 数量 影响 的 内 在 经 
济 逻 辑 ， 增 强 了 模型 的 合理 性 。 


mm 
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5.26 ”社会 学 


性 别 不 平等 是 社会 学 研究 的 问题 之 一 。 由 怕 
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E 别 视角 , 我 们 可 以 发 现 很 多 不 平 


等 现象 , 如 两 性 在 收入 上 、 教 育 上 、 职 业 上 的 不 平等 等 。 分 析 和 鉴别 导致 不 平等 


现象 的 社会 学 因素 是 学 者 们 关心 的 问题 ， 利 月 


有 定量 方法 分 析 相关 社会 学 数据 是 


研究 的 手段 之 一 。 然 而 各 种 社会 因素 之 间 的 因果 链条 十 分 复杂 ， 需 要 采用 科学 
的 数据 分 析 工 具 加 以 应 对 。 马 健 (La) 提出 了 一 种 多 域 因果 关系 鉴别 方法 ， 将 性 
将 不 平等 问题 转化 为 数据 分 析 中 的 域 迁 移 问题 ， 利 


别 因 素 作 为 社会 外 在 变量 ， 


美 


H 


用 基于 CE 的 条 件 独 立 性 测试 发 现 社会 变量 


之 间 的 因果 关系 。 他 将 方法 应 用 于 


国家 成 人 收入 社会 调查 数据 ， 分 析 了 性 别 、 教 育 和 收入 之 间 的 因果 关系 链 


条 ， 发 现 了 性 别 导致 教育 不 平等 ， 进 而 造成 收入 不 平等 的 科学 证 据 。 


5.27 教育 学 


高 中 教育 各 学 科 之 间 具 


性 是 一 个 重要 的 基本 问题 ， 


角度 分 析 论 证 了 MI 度量 的 优越 性 ， 六 
示 数 学 对 其 他 不 同学 科 (语文 、 英 语 、 


5.28 计算 语言 学 


有 内 在 的 联系 ， 教 学 大 纲 中 强调 了 数学 对 物理 、 化 
学 和 生物 等 学 科 的 基础 性 地 位 ， 数 学 知识 、 数 学 思维 和 思想 方法 深刻 地 渗透 影 
向 着 其 他 学 科 的 教学 。 因 此 ， 数 学 成 绩 被 认为 与 其 他 学 科 成 绩 具 有 相关 性 。 利 用 
实证 的 方法 研究 数学 与 其 他 学 科 的 关系 ， 分 析 数学 成 绩 与 其 他 成 绩 之 间 的 相关 
对 于 教学 改革 和 学 习 方 式 的 选择 具有 普遍 参考 意义 。 
柳 琼 [109] 基于 某 市 2013 级 理科 学 生 高 一 、 高 二 期 末 考 试 成 绩 和 高 三 两 次 模拟 
考试 成 绩 ， 研 究 了 数学 成 绩 与 其 他 学 科 成 绩 之 间 的 相关 性 。 作 者 比较 了 经 典 线 
性 相关 系数 、 秩 相关 系数 和 MI 三 种 相关 必 


FE 度量 方法 ,从 CE 和 MI 理论 关系 的 
实验 证 明了 MI 度量 能 够 更 好 地 刻画 揭 
物理 、 化 学 和 生物 等 ) 的 影响 力 机 制 。 


城市 服务 热线 是 政府 公共 管理 系统 的 重要 组 成 部 分 ， 促 进 了 政府 和 市 民 的 
沟通 ， 改 善 了 政府 的 公共 服务 。 但 传统 的 人 工 派 单方 式 无 法 满足 日 益 增长 的 热 


线 诉求 ， 如 何 高 效 快 速 的 处 理 大 量 的 


条 民 热 线 诉 求 是 城市 服务 热线 提高 服务 质 
量 面临 的 重要 课题 。 大 量 的 热线 文本 数据 积累 为 快速 第 选 和 处 理 热线 诉求 提供 


了 可 能 ， 可 以 利用 自然 语言 处 理 方法 处 理 热线 文本 数据 ， 进 而 构建 智能 派 单 系 


统 。 陈 作 海 等 LO) 提出 了 一 种 基于 知识 图 谱 技 术 的 城 
市 热线 数据 构建 热线 知识 图 
进行 派 单 ， 大 大 改善 了 热线 服务 的 工作 效率 。 在 此 智能 派 单 系统 中 ，CE 作为 特 
征 选择 方法 被 用 来 对 城市 热线 数据 进行 预 处 理 ， 以 构建 和 更 新 知识 图 谱 。 结 

表明 ，CE 表现 优 于 其 他 同类 方法 。 作 者 将 该 方法 应 用 在 济南 市 民 服务 热线 的 系 


热线 派 单方 法 ,基于 城 


谱 ， 再 对 待 派 单 诉求 根据 构建 的 知识 图 谱 检 索 结果 


统 上 ， 通 过 不 断 更 新 知识 图 谱 ， 最 终 获得 了 90% 以 上 的 派 单 准确 率 。 
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5.29 ”新 闻 传播 学 


7; 


z 


tk 


FN 


卫生 事件 发 生 过 程 如 何 影响 公众 情绪 是 一 个 重要 的 问题 ， 


现 
公 
ZA 


给 研究 这 类 问题 提供 了 条 件 。Zhang 等 [111] 研究 了 上 海 新 冠 疫 
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— 


具有 理论 和 


人 

实意 义 ， 对 政府 的 信息 发 布 和 与 情 管控 具有 参考 价值 。 特 别 是 新 媒体 环境 中 ，， 
众 情绪 的 传播 和 演化 过 程 受 多 种 因素 影响 ， 因 而 更 趋 复 杂 。 新 
D 


E 
H 


冠 疫 情 的 发 生 
REWE, BE 


情 过 程 对 公众 情绪 的 影响 特点 和 机 理 。 他 们 以 微 博 平台 上 “上 海 疫情 ”主题 的 数 
据 为 基础 ， 研 究 了 公众 情绪 的 影响 因素 、 时 间 演 化 以 及 疫情 与 公众 情绪 之 间 的 


因果 关系 。 人 研究 利用 了 


果 关 系 ， 实 证 地 发 现 了 疫情 过 程 对 公众 负面 情绪 的 因果 效应 大 于 正面 情绪 ， 且 


正面 情绪 对 负面 情绪 具有 抑制 效应 。 


5.30 法 学 


区 属性 与 社区 犯罪 之 间 


社区 是 基本 的 社会 生活 单元 ， 社 区 治安 管理 与 每 个 人 的 4 


于 CE 的 传递 精 方 法 分 析 了 疫情 和 公众 情绪 之 间 的 因 


E 活 息息相关 。 社 
具有 内 在 联系 ， 分 析 社 区 经 济 、 社 会 和 人 口 等 属性 与 各 


类 犯罪 之 间 的 关系 ， 可 以 加 深 对 犯罪 行为 发 生 的 理解 ， 对 执法 部 门 合理 安排 部 
署 资 源 力量 具有 重要 参考 意义 。Wieser [112] 基于 CE 与 MI 的 等 价 关系 ， 提 出 


了 一 种 新 的 


犯罪 行为 ， 人 均 犯 罪 率 和 人 均 GE) 暴力 犯 


531 政治 学 


15%. 


AER (Information Bottleneck) 估计 方法 。 由 于 利用 了 CE 的 
变换 不 变性 ， 该 方法 较 传 统 同类 方法 具有 更 好 的 估计 怕 
美国 社区 与 犯罪 数据 集 , 分 析 125 种 经 济 社会 因素 与 18 种 犯 引 


能 。 他 将 该 方法 应 用 于 
星 属 性 (包括 8 种 
ER) 之 间 的 关系 ,学 习 得 到 了 可 以 
表示 这 种 关系 的 潜 变 量 模型 ， 为 构建 犯罪 预测 模型 提供 


政治 安全 事 关 国家 安危 。 政 治学 研究 关心 政权 领导 力 因素 与 政权 危机 之 间 
的 关系 ,并 根据 这 些 信 息 配置 资源 ,开展 情报 收集 、 稳 定 或 颠覆 政权 等 行动 。 基 


于 雪 城 大 学 莫 伊 尼 汉 全 球 事务 研究 所 的 国际 政治 领导 力 数据 集 ，Card [113] 研 
RT 37 个 领导 力 因 素 与 政治 安全 之 间 的 非 线 怕 


性 分 析 工 具 , 重点 关注 了 两 个 领导 力 变量 


系 ， 发 现 了 未 知 的 关系 和 现象 。 


5.32 军事 学 


目标 意图 及 时 准确 识别 是 战场 态势 感知 的 一 项 重要 内 容 ， 是 指挥 决策 的 基 


础 和 前 提 。 空 中 飞行 目标 意图 识别 会 面临 多 种 不 确定 怕 


EXA, RH CE (MI) 作为 非 线 
(政权 建立 原因 和 政权 结束 原因 ) 与 其 
他 因素 的 关系 。 分 析 结 果 佐 证 了 社会 学 家 的 已 有 理论 ， 分 析 也 印证 了 已 知 的 关 


的 挑战 ， 如 行为 特性 与 


物理 特性 的 不 确定 性 、 飞 行规 则 的 不 确定 性 和 行动 能 力 的 不 确定 性 等 ， 使 得 及 


时 准确 的 意图 识别 十 分 困难 。 张 可 等 [L14] 提出 了 一 种 基于 动态 贝 叶 


斯 网 络 的 目 
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标 意 图 识别 方法 ， 用 于 从 复杂 态势 中 目标 的 时 序数 据 中 完成 意图 识别 ， 方 法 利 
用 基于 CE 的 MI 佑 计算 法 从 目标 属性 和 目标 意图 数据 来 生成 贝 叶 斯 网 络 结构 ， 
再 利用 自 适应 遗传 算法 迭代 优化 网 络 结构 ， 利 用 最 终 优 化 得 到 的 网 络 来 进行 未 
知 目标 的 意图 识别 。 他 们 将 该 方法 应 用 于 空中 目标 的 处 理 过 程 ， 利 用 空中 目标 
的 位 置信 息 、 飞 行 信息 ， 以 及 雷达 和 通讯 系统 信息 来 识别 其 6 种 不 同意 图 (这 
逻 、 预 警 /指挥 、 电 子 侦察 、 电 子 干扰 、 攻 击 和 打击 等 )。 该 方法 可 不 限于 空中 飞 
行 目 标 ， 可 以 很 方便 地 推广 到 其 他 类 型 目标 上 。 


5.33 ”情报 学 


颠覆 性 技术 是 具有 原始 创新 性 的 技术 ， 会 对 现 有 主流 技术 和 产业 产生 变革 
性 作用 ， 推 动 经 济 社会 发 生 突变 式 进步 。 开 展 颠 履 式 技术 的 前 瞻 识 别 及 预 判 研 
究 是 科技 情报 分 析 领 域 的 重要 问题 ， 对 科技 政策 制订 、 科 技 产业 布局 和 科技 创 
新 生态 培育 具有 指导 意义 。 基 于 知识 网 络 分 析 的 科学 、 技 术 和 产业 互动 模式 研 
究 是 解决 识别 研判 问题 的 路 径 之 一 。 许 海 云 等 提出 了 一 个 颠覆 性 技术 研究 
流程 框架 ,以 渐进 式 技术 为 参照 获取 科技 、 专 利和 产业 文献 资料 的 文本 数据 , 利 
用 自然 语言 处 理 技术 分 别 构建 三 者 的 知识 网 络 ， 再 利用 知识 网 络 的 三 种 整体 网 
络 属性 和 网 络 社区 相似 度 属 性 将 知识 网 络 互 动 模式 划分 为 预 设 的 五 种 模式 ， 包 
括 科 学 -技术 -产业 联动 模式 。 其 中 ，CE 被 用 来 度量 三 种 知识 网 络 的 整体 网 络 属 
性 之 间 的 关联 度 ， 以 表征 互动 模式 。 他 们 以 再 生 医学 (干细胞) 领域 作为 颠覆 
性 技术 对 象 ， 以 白血病 治疗 领域 为 渐进 性 技术 参照 开展 实证 研究 ， 获 取 了 截至 
2020 年 底 的 权威 数据 库 相 关 文 本 数据 ， 利 用 该 流程 框架 研究 了 两 个 对 比 领域 科 
学 -技术 -产业 互动 模式 的 共性 和 差异 ,加深 了 对 站 覆 性 技术 创新 生态 要 素 的 知识 
流动 和 扩散 规律 的 认识 。 


5.34 ”能 源 工程 


天 气 是 能 源 系 统 的 重要 影响 因素 ， 直 接 影响 能 源 的 生产 和 消费 两 端 。 特 别 
是 当 可 再 生 能 源 整 合 到 能 源 系统 中 后 ， 风 速 和 光照 等 天 气 因素 决定 了 风能 和 光 
伏 能 源 的 生产 能 力 ， 而 温度 变化 则 会 影响 居民 的 能 源 消耗 需求 。 但 自然 系统 具 
有 较 大 的 随机 性 ， 给 新 能 源 系 统 的 稳定 高 效 运 行 带 来 了 挑战 。 因 此 ， 新 型 能 源 
网 络 管理 系统 需要 建立 合理 的 模型 ， 以 便 将 新 能 源 集成 到 网 络 中 。 信 息 论 为 管 
理 天 气 系统 的 随机 性 提供 了 工具 。Fu 等 [110 研究 了 基于 信息 论 在 集成 能 源 系 
统 中 建立 天 气 模型 的 方法 。 作 者 采用 了 Copula 函数 建立 天 气 变量 的 联合 分 布 模 
型 ， 并 采用 CE 计算 的 MI 作为 模型 准确 性 的 评价 指标 ， 以 指导 建 模 过 程 。 同 
时 ，MI 还 被 用 来 衡量 各 种 能 源 产 出 之 间 的 关联 强度 。 作 者 将 得 到 的 集成 能 源 系 
统 模 型 用 于 模拟 中 国 北方 某 地 区 的 能 源 系统 运行 情况 ， 并 与 实际 数据 进行 了 对 
th. 结果 显示 , 系统 模型 的 模拟 与 实际 情况 基本 符合 ,说 明 构建 的 天 气 模型 能 够 
满足 能 源 管理 系统 运行 需求 。 
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光伏 发 电 技术 受 天 气 等 环境 因素 影响 , 具有 较 大 的 不 确定 性 , 给 电网 的 安全 
稳定 运行 构成 影响 。 根 据 气 象 条 件 等 因素 对 光伏 发 电站 有 功 功 率 进 行 预报 ， 有 


助 于 电网 调度 人 员 更 好 地 


由 定 调度 策略 ， 应 对 光伏 发 电 的 不 确定 性 给 电网 的 冲 


击 威胁 。 朱 正 林 和 张 晃 [117] 提出 了 一 种 结合 优化 算法 、 模 态 分 解 、CE 和 深度 


学 习 模 型 的 方法 ， 用 于 提高 发 电功率 的 预测 精度 。 他 们 在 澳大利亚 Yulara 地 区 
光伏 电站 数据 上 将 方法 与 多 种 同类 方法 进行 了 对 比 ， 表 明 该 方法 得 到 的 模型 能 


够 更 好 地 适应 天 气 变 化 的 影响 ， 取 得 最 好 的 预测 效果 。 


风能 作为 一 种 主要 的 清洗 能 源 ， 具 有 间 砍 性 和 不 确定 性 的 特点 ， 导 致 风电 
机 组 的 功率 预测 和 控制 十 分 复杂 。 基 于 风电 机 组 的 监测 数据 ， 分 析 机 组 内 各 变 


HA 


= 


量 之 间 的 相关 性 特征 ， 有 助 于 机 组 的 健康 状态 监测 和 风电 功率 预测 ， 从 而 更 好 
用 风能 资源 。 崔 双双 和 和 孙 单 助 [L18] 提出 利用 CE 来 分 析 风 电机 组 状态 变量 


之 间 的 相关 性 ， 再 基于 CE 相关 性 进行 聚 类 以 得 到 机 组 工 况 的 划分 。 他 们 将 方 
法 应 用 于 广东 某 海 上 风电 场 数据 采集 与 监控 (SCADA) 系统 的 数据 ， 发 现 CE 
方法 较 传统 方法 能 更 好 地 描述 数据 中 的 相关 性 ， 并 利用 K-means 方法 得 到 了 能 
精确 地 反映 风电 机 组 运行 特性 和 状态 的 工 况 划 分 ， 具 有 重要 的 现实 意义 。 

电力 负 蓓 预测 是 根据 历史 数据 来 预报 未 来 一 段 时 间 的 用 电量 ， 对 智能 电网 


调度 和 规划 电力 输送 具有 重要 意义 。 电 力 负 蓓 受 多 种 因素 影响 ， 具 有 周期 性 和 
FRESER, 特别 是 受 天 气 因 素 的 影响 明显 。 因 此 , 构建 准确 的 电力 负 蓓 预测 


模型 需要 考虑 天 气 等 多 种 因素 ， 并 对 天 气 对 负荷 的 影响 特点 进行 分 析 。Ma [L5] 


提出 利用 基于 CE 的 TE 方法 来 分 析 动 态 系统 的 时 延 特性 ， 并 将 方法 应 用 于 麻 
洛 哥 缔 头 万 (Tétouan) 城 的 电力 消费 数据 ， 从 时 延 的 角度 分 析 了 五 种 天 气 因素 
对 该 城 三 个 电力 供应 网 络 的 负荷 的 影响 ， 发 现 了 影响 的 每 日 时 延 变化 特征 。Yan 
等 下 19| 提出 了 一 种 结合 聚 类 算法 、 预 测算 法 和 集成 学 习 方 法 的 综合 能 源 负荷 短 
期 预测 方法 ， 首 先 根据 负荷 数据 特性 对 数据 进行 聚 类 ， 再 对 每 类 数据 利用 基于 
CE 的 TE 算法 分 析 选 择 对 负荷 有 影响 的 外 部 因素 (包括 天 气 和 时 间 两 类 ) ， 最 


后 利用 集成 学 习 算 法 对 负荷 进行 预测 。 他 们 将 方法 应 用 于 2018 年 美国 亚利桑那 
居民 建筑 综合 能 源 负荷 数据 ， 以 预测 电力 、 燃 气 、 制 冷 和 供 热 四 种 负荷 。 实 验 
结果 表明 ， 利 用 基于 CE 的 TE 算法 选择 的 外 部 因素 可 以 在 预测 模型 上 得 到 最 
好 的 预测 性 能 ， 效 果 明 显 好 于 其 他 相关 性 变量 选择 对 比方 法 ， 原 因 是 TE 可 以 


准确 度量 外 部 因素 和 负荷 之 间 的 时 序 非 线性 关系 . HE [120] 提出 了 一 种 基于 深 


度 学 习 的 综合 能 源 多 元 负荷 短期 预测 方法 ， 首 先 利 用 VMD 对 多 元 负 和 从 进行 分 


解 ， 再 利用 CE 计算 分 解 得 到 的 ME 分 量 与 负荷 影响 因素 之 间 的 连接 强度 ， 作 
为 图 卷 积 网 络 的 邻接 矩阵 权重 ， 再 将 如 此 得 到 的 时 序 而 合 特征 输入 到 LSTM 模 
型 ， 将 由 此 得 到 的 模型 输出 与 男 一 个 Transformer 模型 的 输出 进行 点 乘 运 算 作 


为 最 终 预 测 结 果 。 他 在 美国 亚利桑那 州立 大 学 坦 佩 小 区 的 数据 上 验证 了 方法 的 
有 效 性 ， 发 现 CE 能 够 很 好 地 计算 出 气象 和 时 间 等 因素 与 冷 、 热 、 电 负 蓓 各 分 


量 之 间 的 耦合 强度 关系 ， 增 加 了 模型 的 可 解释 性 。 
可 再 生 的 风光 能 源 越 来 越 成 为 电力 能 源 的 重要 组 成 部 分 ， 如 何 保证 风光 电 


5 


力 接 人 的 经 济 效益 和 安全 可 靠 是 可 再 生 能 源 利 月 
解决 此 关切 十 分 关键 ， 可 
的 发 生 。 储 能 系统 可 以 平抑 风光 能 源 的 不 稳定 波动 性 ， 是 风光 系统 规划 的 
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的 主要 关切 。 合 理 的 规划 对 于 
[保证 建设 投资 回报 和 系统 合理 运行 ， 防 止 风光 能 源 被 


组 成 部 分 。 董 海燕 等 2 中 提出 了 一 种 考虑 源 荷 时 序 相似 性 的 风光 储 协同 规划 配 


置 方法 ， 其 中 利 月 
IRA 


= 


H CE 衡量 风光 能 源 与 负荷 之 间 的 相似 性 ， 以 提高 系统 风光 能 
用 效率 。 他 们 将 方法 应 用 于 某 工业 园区 的 风光 火 储 联合 发 电 系统 的 规划 


配置 , 结果 表明 , 该 方法 能 有 效 降低 储 能 系统 的 装机 容量 , 提高 新 能 源 的 消 纳 能 


力 ， 经 济 效 益 和 减 排 效 益 明显 。 


频率 是 电力 系统 最 重要 的 物理 量 指标 之 一 ， 频 率 稳定 性 是 保障 电力 供应 稳 


定性 的 一 个 基本 要 求 。 可 再 生 能 源 由 于 具有 不 可 预测 性 ， 其 大 量 接 入 电网 给 电 


网 频率 稳定 性 


E 带 来 了 挑战 。 为 了 稳定 和 控制 新 能 源 带 来 的 频率 波动 ， 需 要 准确 


快速 地 预测 系统 的 频率 稳定 性 ， 以 帮助 系统 操作 员 提 前 制定 控制 策略 。 传 统 的 
频率 稳定 性 预测 是 模型 驱动 的 ， 由 于 求解 耗 时 从 而 无 法 做 到 在 线 预测 。 基 于 机 
器 学 习 的 模型 方法 ， 通 过 简化 模型 以 提高 计算 效率 ， 可 以 满足 在 线 预 测 的 需求 。 
Liu 等 (129 (123) 提出 了 一 种 结合 深度 学 习 和 CE 的 频率 稳定 性 预测 方法 ，CE 


被 用 来 选择 模型 输入 变 
两 个 系统 : 一 个 是 新 英格兰 39 节点 系统 ， 集 成 了 美 
态 风 场 模型 ; J 


量 ， 减 少 元 余 信息 以 提高 计算 效率 。 作 者 将 方法 应 用 于 
国 西部 电力 调度 委员 会 的 动 


个 是 基于 南 加 刀 


西部 的 电网 系统 建立 的 ACTIVSg500 系统 。 


实验 表明 该 方法 建立 的 模型 相 较 同 类 模型 取得 了 最 好 成 绩 ， 达 到 了 实用 的 要 求 。 


CE 方法 不 仅 简化 了 模型 、 大 幅 降 低 了 计算 时 间 ， ] 
关 的 电网 变量 ， 使 得 模型 具有 了 可 解释 性 。 


会 造成 连锁 反应 , 严重 危害 电网 安全 运行 。 


日 分 析 发 现 了 与 频率 稳定 性 相 


电力 系统 宽频 振荡 由 电力 电子 设备 的 动态 交互 作用 引发 ， 在 电网 中 的 传播 


宽频 振荡 激发 机 理 复 杂 ,， 具 有 显著 的 


时 变 、 非 线性 和 广 域 传播 等 特征 ， 难 以 有 效 地 进行 建 模 分 析 。 冯 双 等 [24 1125) 


fi 


= 


用 CE 的 模型 无 关 特 


生 ， 提 出 了 一 种 宽频 振荡 影响 因素 和 传播 路 径 分 析 方 法 。 


该 方法 以 系统 运行 的 状态 参数 为 随机 变量 ， 通 过 计算 其 与 各 个 频率 区 间 的 振荡 
阻尼 之 间 的 CE 来 选取 影响 振荡 的 关键 因素 ; 同时 ， 利 用 系统 发 生 振荡 时 的 数 


据 ， 计 算 系 统 变量 之 间 的 copula (RRNA, H 
定位 。 该 分 析 方 法 是 数据 驱动 的 方法 , MIDE RE 
分 析 结 果 。 作 者 仿真 了 直 驱 风机 并 网 系统 和 含 风 电场 的 四 机 两 区 系统 ， 对 控制 


于 分 析 振 荡 的 传播 过 程 和 振 源 
模型 未 知 的 情况 下 得 到 相应 的 


器 内 部 各 环节 和 复杂 系统 各 母线 之 间 的 振荡 因果 关系 进行 分 析 。 仿 真 结果 表明 ， 
该 方法 能 够 从 设备 级 和 网 络 级 两 个 层面 准确 确定 宽频 振 沪 的 传播 路 径 和 振 源 位 
置 ， 为 研究 振荡 传播 机 理 提 供 了 支撑 ， 为 进一步 采取 振荡 抑制 措施 提供 了 参考 。 


Sh ORS 也 提出 了 一 个 利 有 


H CE 识别 交 直 流 混 联系 统 宽频 振荡 风险 识 


别 方法 ， 通 过 分 析 计 算 振荡 影响 因素 变量 与 各 个 子 频率 区 间 内 振荡 模 态 的 阻尼 


变量 之 间 的 CE 来 进行 风险 识别 。 他 们 利 月 


Y) 


i 动 下 的 振荡 风险 , RÁ 


H LOC 模型 发 现 了 整流 器 探 人 


该 方法 分 析 了 某 省 份 电网 系统 在 小 


判 参数 和 直流 传输 功率 等 关 


键 影响 因素 ， 为 后 续 设 计 抑制 振荡 的 针对 性 调整 方案 提供 了 准确 且 可 靠 的 依据 。 
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线 损 率 是 电力 能 源 企业 的 一 项 重要 经 济 技术 指标 ， 衡 量 其 经 济 效益 水 平 的 
高 低 。 因 此 ， 线 损 管理 和 异常 线 损 稽查 是 电力 部 门 的 一 项 重要 工作 。 线 损 分 析 是 
利用 科学 的 计算 手段 分 析 线 损 在 电网 中 的 分 布 规律 ， 能 为 管理 提供 高 效 、 准 确 
的 决策 支持 。Hu 等 (128) 提出 了 一 种 基于 TE 的 线 损 分 析 方法 ， 通 过 CE 估计 
计算 每 个 用 户 对 区 域 总 线 损 的 TE 值 来 判断 其 对 总 线 损 的 贡献 。 他 们 基于 每 日 
电力 供应 和 线 损 数据 的 计算 分 析 ， 将 用 户 根据 线 损 贡 献 度 排序 ， 以 应 用 于 实际 
线 损 管理 工作 中 ， 从 而 减少 总 线 损 率 。 
配 电网 拓扑 辨识 是 电网 系统 分 析 的 重要 问题 ， 为 潮流 计算 、 电 网 状态 估计 、 
无 功 优化 调节 和 网 络 重 构 等 配 电网 管理 功能 提供 基础 。 随 着 分 布 式 能 源 大 规模 
接 入 配 电网 ， 其 波动 性 和 不 确定 性 导致 系统 拓扑 重 构 更 加 多 变 ， 给 拓扑 辨识 带 
来 了 新 的 难题 。 秦 超 和 潘 航 笔 由 29| 提出 了 一 种 新 的 配 电网 拓扑 辨识 方法 ， 基 于 
时 空 相 关 性 将 辨识 问题 转化 为 多 个 开关 节点 状态 识别 的 子 问题 。 该 方法 首先 利 
用 CE 和 马尔 科 夫 链 分 别提 取 节 点 电压 序列 之 间 的 空间 和 时 间 非 线性 相关 性 特 
征 ， 在 此 基础 上 得 到 能 够 识别 单个 开关 状态 变化 序列 的 模型 ， 最 后 结合 多 个 此 
类 开关 状态 识别 结果 完成 一 定时 间 内 的 网 络 拓扑 结构 辨识 。 他 们 模拟 了 接 入 风 
机 和 光伏 的 拓扑 结构 动态 变化 的 配 电网 ， 为 其 仿真 生成 了 为 期 120 天 的 配 电网 
家 庭 负 荷 ， 在 此 网 络 节点 量 测 数据 的 基础 上 检验 所 提出 的 方法 , 结果 表明 CE 能 
够 有 效 分 析 节 点 电压 之 间 的 相关 性 ， 导 致 该 方法 能 够 在 短 时 间 内 有 效 辨识 网 络 
拓扑 结构 。 

电价 预测 问题 在 电力 市 场 参与 者 决策 中 至 关 重要 ， 可 以 帮助 其 开发 交易 策 
略 并 合理 分 配 资源 。 但 新 能 源 的 广泛 使 用 使 电力 供应 具有 不 确定 性 ， 从 而 使 电 
价 预 测 变 得 更 加 复杂 ， 造 成 预测 模型 构建 较为 困难 。Xiong 和 Qing (130) 提出 
了 一 种 基于 时 序数 据 的 混合 电价 预测 框架 ， 将 基于 CE 的 特征 选择 方法 与 信号 
分 解 、 贝 叶 斯 优化 和 LSTM 模型 相 结合 , 以 构建 预测 模型 。 他 们 将 方法 应 用 于 
2017 年 美国 宾夕法尼亚 州 -新 泽 西 州 -马里 兰州 互联 网 络 (PIM) 电力 市 场 数据 
上 ,证 明了 该 方法 的 有 效 性 和 实用 性 。 

锂电 池 是 使 用 最 广泛 的 绿色 清洁 能 源 。 但 锂电 池 的 电池 容量 会 随 着 使 用 次 
数 而 退化 ， 因 此 电池 健康 状态 监测 是 电池 管理 系统 中 的 主要 问题 之 一 。 传 统 的 
健康 状态 监测 模型 大 多 在 单一 负载 状况 假设 下 得 到 ， 无 法 适用 于 真实 场景 下 的 
多 种 状况 ， 导 致 在 原始 数据 上 得 到 的 模型 无 法 适应 新 的 情况 。 针 对 此 问题 ，Hu 
和 Wu [131] 提出 了 一 种 基于 迁移 学 习 思想 的 电池 容量 估计 方法 ， 结 合 了 因果 分 
析 、 注 意 力 机 制 和 LSTM 等 工具 ， 其 中 基于 CE 的 TE 被 用 于 选择 与 容量 退 
化 相关 的 健康 状态 指标 ， 以 保证 构建 模型 在 不 同 状况 下 的 可 迁移 性 。 作 者 将 方 
法 应 用 于 NASA 的 3 种 负载 状况 下 的 刍 电 池 退 化 数据 ， 结 果 表 明 ， 基 于 因果 分 
析 构 建 的 模型 比 基 于 两 种 传统 方法 的 模型 的 跨 工 况 预测 准确 度 分 别提 高 了 8.6% 
和 12.4%， 增 强 了 模型 的 鲁 棒 性 。 

能 源 效率 是 工业 4.0 的 主要 目标 之 一 ， 生 产 系统 的 数字 化 给 提高 工业 设备 
的 能 源 效 率 提供 了 巨大 的 机 会 。 能 效 异 常 是 改善 能 源 效率 的 突破 口 ， 发 现 异 党 


= 


u 
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并 给 出 其 原因 是 改善 能 效 的 有 效 途 径 。 然 而 工业 系统 大 都 具有 复杂 的 结构 和 运 
行 机 理 ， 难 以 通过 传统 建 模 方法 分 析 能 效 异 常 的 根本 原因 。 马 健 提出 利用 
TE 对 能 效 异 常 进行 根 因 分 析 ， 针 对 工业 系统 的 非 平稳 性 ， 给 出 了 一 个 称 为 TE 
流 的 能 效 异 常 原因 诊断 方法 ， 其 中 采用 了 基于 CE 的 TE 估计 方法 。 由 于 TE 
是 模型 无 关 的 ， 该 方法 也 就 可 以 在 无 设备 机 理 的 条 件 下 对 各 种 设备 进行 能 效 异 
常 根 因 分 析 。 他 将 该 方法 应 用 于 一 个 空气 压缩 机 系统 ， 成 功 地 对 系统 运行 的 因 
果 关 系 进 行 了 描述 ， 从 而 找到 了 导致 系统 能 效 蜡 常 状态 的 空 压 机 子 系统 。 


5.35 食品 工程 

葡萄 酒 作为 一 种 奢侈 农产品 ， 越 来 越 走 进 广大 普通 消费 者 。 葡 萄 酒 质量 
品 鉴 对 其 生产 和 销售 都 至 关 重 要 ， 和 葡萄酒 酿 造 业 大 量 投 入 在 质量 评价 环节 ， 以 
改善 酿造 工艺 并 促进 消费 。 传 统 的 质量 品 鉴 主要 依靠 理化 测试 和 专家 感受 ， 但 
专家 的 味觉 感受 主观 性 较 强 , 其 内 在 机 理 难以 理解 。 因 此 , 有 必要 研究 酒 的 成 分 
和 专家 评价 之 间 的 内 在 联系 ， 以 增进 对 葡萄 酒 质量 的 理解 ， 提 高 质量 评价 的 客 
观 性 。 Lasserre % [133,134] 利用 基于 CE 的 (条件 ) 独立 性 度量 估计 , 提出 了 一 
种 因果 关系 网 络 学 习 算 法 ， 称 为 CMIIC， 并 将 其 应 用 于 著名 的 葡萄 牙 绿 酒 的 质 
量 评价 数据 上 ， 分 析 发 现 了 分 别 与 红 葡萄 酒 和 白 葡萄 酒 的 质量 相关 的 理化 成 分 。 


5.36 EAT 

建筑 能 源 消 耗 占 全 部 能 源 消耗 的 四 成 左右 ， 建 筑 节能 技术 是 重要 的 绿色 能 
源 技术 ， 对 实现 联合 国 的 碳 中 和 目标 意义 重大 。 供 上 暖 、 通 风 和 空调 (HVAC) A 
统 贡献 了 商业 楼 宇 四 成 以 上 的 能 耗 ， 是 建筑 节能 的 主要 研究 对 象 之 一 。HVAC 
系统 的 运行 具有 时 延 的 特性 ， 来 自 于 媒介 传导 的 滞后 和 热 惯性 。 理 解 并 运用 这 
种 特性 ， 有 利于 设计 适当 的 控制 策略 ， 从 而 达到 节能 的 目的 。Li 等 (135) 将 基于 
CE 的 TE 理念 方法 引入 到 HVAC 领域 ， 开 发 了 一 种 基于 信息 论 框架 的 无 模型 
时 延 鉴 别 方法 ， 用 于 HVAC 系统 的 时 序 预测 。 他 们 改进 了 KNN 的 多 变量 TE 
估计 器 ， 结 合 优化 方法 设计 了 时 延 鉴别 算法 。 他 们 将 算法 应 用 于 大 连 某 四 层 教 
学 楼 的 供 热 监控 系统 ， 分 析 室 内 温度 与 天 气 参数 (如 室外 温度 、 相 对 湿度 、 太 阳 
辐射 、 风 速 等 ) 和 供 热 参 数 (如 热 水 供 应 和 回流 温度 等 ) 的 数据 , 鉴别 时 延 特性 ， 
进而 利用 后 两 组 参数 预测 下 一 段 时 间 的 室温 。 结 果 表 明 ，TE 方法 能 够 鉴别 参数 
之 间 的 时 延 关系 特性 ， 进 而 提高 室温 预测 性 能 。 

工程 变形 监测 是 工程 测量 领域 的 重要 问题 之 一 ， 需 要 保证 监测 精度 和 可 千 
性 ， 对 大 型 工程 的 施工 运营 安全 具有 重要 意义 。 常 见 的 变形 监测 分 析 方法 一 般 
只 针对 单个 监测 点 的 建 模 和 预测 ， 但 变形 体内 部 监测 点 间 不 是 孤立 的 ， 而 是 具 
有 内 在 的 相关 性 ， 因 而 可 以 利用 这 种 相关 性 提高 单 点 监测 的 预测 精度 。 曹 久 臣 
等 也 36| 提出 了 一 种 基于 自 注意 力 机 制 的 变形 监测 方法 , 采用 CE 度量 监测 点 与 
围 点 之 间 的 相关 性 ， 再 利用 这 些 相关 点 组 成 的 数据 集训 练 自 注 意 力 机 制 的 模 
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业 运 输 作 业 活 动 ， 


施 建设 起 着 重要 的 支撑 和 保障 作用 ， 也 关系 着 
要 铁路 、 航 运 等 多 式 联 运 的 方式 才 
环节 模块 联动 的 整体 方案 。 随 着 交通 系统 的 数字 化 ， 大 量 
积累 ， 基 于 数据 的 大 件 货物 运输 
E 和 适用 性 。 


运输 大 都 需 
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于 提高 方 
了 一 种 基 
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[可 


属性 会 具有 非 


CAF 


E i EN RESET 
于 模块 链 构建 的 大 件 货 o 
案 分 解 为 多 个 局 部 环节 模块 ， 再 利用 
用 于 计算 方案 之 间 的 相似 度 ， 最 后 在 已 有 运输 案例 库 中 检索 与 目标 运输 任务 相 
似 度 高 的 案例 作为 初步 运输 方案 。 由 于 大 件 运 输 方案 的 多 样 性 ， 
使 得 传统 的 相关 系数 工具 不 再 适用 于 计算 属性 间 相 关 性 
Ho (PATE 600 多 个 实际 
制定 原型 系统 。 

国 最 主要 的 两 种 旅客 运输 方式 。 相 较 于 航空 ， 高 铁 票 


斯 性 ， 
而 CE 由 于 具有 普 适 
该 方法 ， 并 构建 了 方案 

航空 和 高 速 铁路 是 我 
价 的 市 场 化 水 平 处 于 落后 的 水 平 ， 父 缺 灵 活 怡 
的 因素 以 期 改进 高 铁 票 价 的 定价 机 制 是 学 界 十 分 关心 的 问题 。 许 罗 豪 等 [138] 基 


交通 运输 
大 件 货物 运输 是 指 通过 多 种 运输 方式 对 具 
J 有 重要 地 位 


在 国民 经 济 中 占 


ae I 点 位 的 位 移 数 据 ， 
卉 预警 等 长 期 变形 预测 问题 


。 他 们 将 方法 应 用 于 某 隧 道 施 工段 2 
以 预测 7 天 的 变形 ， 获 得 了 较 好 
良好 的 应 用 价值 。 


具有 


有 不 可 拆 解 属 愧 


方案 


国防 军事 和 


Ab 2 
HB ZU 


H 


性 则 


依然 适 月 


于 京 沪 航 空 和 高 铁 票 价 的 数据 ， 利 
出 行 效率 和 出 行路 线 
票 提 前 期 对 两 种 票 价 的 影响 程度 不 同 ， 但 旅行 时 间 对 
结论 对 高 铁定 价 具 


客 选择 、 


这 些 研 究 


有 一 


城市 轨道 交通 已 经 成 为 我 


轨道 交通 系统 的 管理 水 平和 运营 


通 客 流 分 析 与 m iil 


定 的 参考 价值 。 
E A ST 


用 CE 和 决策 树 等 工具 
四 类 因素 对 航空 和 高 铁 票 价 的 影响 。 他 们 发 现 购 
二 者 的 影响 程度 较为 相似 。 


利 


mu 


PRI 
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020 年 12 月 至 


的 大 型 物件 的 专 
对 国计民生 重点 行业 的 基 
国家 安全 。 大 件 货物 

成 ， 需 要 制定 各 个 局 部 运输 
的 相关 方案 数据 得 到 
y ii a i 
用 CE 等 多 种 数学 工具 


础 设 


提出 


制定 方法 。 
CE 等 相关 性 度量 工具 贫 


ir 


该 方法 先 将 运输 方 
吾 选 一 组 模块 属性 


一 些 案 例 模块 


E 和 动态 性 。 


因此 ， 


效率 是 交通 系统 面临 
则 可 以 为 正常 客流 


15 


的 主要 交通 出 行 方式 之 一 ， 提 升 城市 
的 重要 问题 之 一 。 


1. 9 


案例 的 数据 上 验证 了 


E 


o 旅 


城市 交 


导 、 异 常客 流 琉 导 和 轨道 列车 调度 提供 依 


录 数 据 分 析 轨 道 交 通 和 公交 、 出 租车 等 其 他 交通 方式 客流 之 间 


的 互动 关系 ， 有 助 于 提升 轨道 交通 客流 预测 效果 。 王 升 [139] 提出 利用 相关 分 析 


和 因果 分 析 等 方法 对 客流 时 序数 据 进 行 分 析 ， 


关系 的 理解 。 其 中 ， 基 于 CE 的 TE 方法 被 月 


法 应 用 于 苏州 市 轨道 交通 系统 


4 


JH, 


车 客流 


意义 。 


公交 和 出 租车 客流 


i 时 序数 据 ， 因 果 分 析 结 果 表 明 ， 
i 到 轨道 交通 进 站 客流 的 影响 有 1 小 时 的 济 后 效应 ， 而 东方 之 门 站 的 这 种 
沾 后 效应 则 有 5 小 时 。 这 一 分 析 结 果 对 轨道 交通 站 点 的 客流 预测 


以 增 ; 


进 对 不 同 交 通 方式 客流 之 间 


于 客流 间 因 果 关 系 分 析 。 他 将 方 
四 个 站 点 2018 Æ 8 H 6 日 至 12 日 期 间 的 轨道 交 
三 元 坊 和 东 环 路 站 的 出 租 


具有 重要 指导 
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5.38 人 制造 工程 


产品 质量 是 制造 业 的 生命 。 注 射 成 型 (injection molding) 是 近年 快速 发 展 
的 工业 制造 技术 ， 在 航天 、 建 筑 、 通 讯 等 领域 有 着 广泛 应 用 。 注 射 成 型 过 程 包 
括 了 多 步 复杂 的 物理 和 化 学 反应 过 程 ， 很 容易 受到 外 部 因素 的 影响 ， 保 证 塑料 
产品 质量 的 稳定 性 是 一 个 难题 。 基 于 制造 过 程 历史 数据 ， 建 立 产 品质 量 预测 模 
型 是 提高 产品 质量 的 手段 之 一 。 但 建立 模型 需要 首先 选择 有 关 的 过 程 参数 作为 
模型 输入 ， 以 获得 较 好 的 预测 性 能 。Sun 等 [140] 提出 基于 CE 方法 选择 过 程 参 
数 变量 用 于 构建 质量 预测 模型 ， 并 将 方法 应 用 于 真实 的 富士 康 公司 的 注射 成 型 
生产 过 程 数据 ， 大 幅 改 善 了 质量 预测 的 性 能 。Cai 和 Rong 提出 了 一 种 鉴 
别 影响 质量 的 关键 因子 的 方法 ， 首 先 利 用 CE 建立 因子 间 相 关 和 矩阵 ， 再 用 网 络 
反 卷 积 方法 消除 因子 之 间 的 间接 影响 ， 从 而 鉴别 出 影响 质量 的 关键 因子 。 他 们 
将 方法 应 用 于 UCL 机 器 学 习 库 的 三 个 数据 集 ， 结 果 表 明 该 方法 能 够 较 同类 方法 
更 高 效 地 鉴别 关键 因子 并 取得 最 高 的 预测 准确 率 。 他 们 又 将 方法 应 用 于 一 个 薄 
膜 晶体 管 液晶 显示 器 生产 的 实际 数据 ， 结 果 显 示 ， 该 方法 从 1540 个 因子 中 选 出 
154 个 因子 ， 并 得 到 了 最 好 的 质量 预测 精度 。 

复杂 机 械 产品 的 整 机 制造 包括 设计 、 制 造 和 装配 三 个 环节 。 作 为 产品 生产 
的 最 后 一 个 环节 ， 装 配 过 程 在 零 部 件 的 制造 过 程 基础 上 组 装 高 精度 产品 ， 装 配 
质量 控制 在 零 部 件 制 造 质量 的 基础 上 保障 整 机 产品 质量 。 复 杂 机 械 产品 零 部 件 
数量 种 类 繁多 、 相互 关 联 , 装配 环节 错综复杂 , 上 游 环节 的 装配 质量 误差 会 对 下 
游 环节 质量 构成 影响 。 王 小 巧 [142] 在 装配 质量 控制 中 考虑 了 上 下 游 工 序 和 质量 
控制 点 之 间 的 相关 性 ， 利 用 Copula 对 控制 点 间 相关 关系 建 模 ， 并 用 CE 度量 这 
种 相关 性 ， 进 而 提出 了 一 种 装配 质量 控制 点 控制 阀 优 化 方法 。 她 将 方法 应 用 于 
江淮 汽车 某 型 汽油 发 动机 关键 零 部 件 缸 盖 的 装配 工序 过 程 ， 验 证 了 方法 的 有 效 
性 


= 


现代 工业 系统 变 得 越 来 越 高 度 复杂 和 自动 化 ， 使 得 工业 过 程 监 测 变 得 愈加 

困难 。 如 何 监测 系统 异常 并 发 现 异常 原因 是 一 个 具有 广泛 应 用 的 重要 问题 。 利 
用 因果 分 析 得 到 工业 系统 内 部 复杂 的 因果 关系 图 ， 有 助 于 准确 发 现 异常 的 传播 
路 径 ， 进 而 及 时 进行 干预 。Dong 等 [143] 提出 了 一 个 结合 动态 PCA, TE 和 
LSTM 的 故障 分 析 框架 ， 其 中 基于 CE 的 TE 被 用 分 析 系 统 内 的 因果 关系 。 作 
者 将 该 方法 应 用 于 辽宁 鞍钢 的 热 轧 带 钢 工艺 过 程 数据 的 分 析 ， 成 功 地 对 过 程 中 
的 两 个 故障 及 其 原因 进行 了 分 析 。 作 者 还 将 基于 TE 的 因果 图 分 析 方法 与 同类 
格 兰 杰 因果 分 析 方法 进行 了 对 比 ， 表 明 TE 方法 能 够 更 准确 地 对 故障 进行 根 因 
分 析 。 刘 胶 阳 等 [144] as] 提出 了 一 -种 动态 过 程 分 布 式 监控 的 CE-DR-SVDD 方 
法 ， 首 先 利用 基于 CE 的 Louvain 算法 对 系统 变量 分 组 ， 再 利用 动态 递归 支持 
向 量 数据 描述 算法 构建 局 部 监控 模块 ， 最 后 利用 贝 叶 斯 推理 融合 局 部 监控 结果 
来 得 到 全 局 监控 结果 。 他 将 方法 应 用 到 田纳西 伊 斯 曼 过 程 的 实验 数据 上 ， 并 与 
同类 方法 进行 了 对 比 ， 结 果 发 现 该 方法 在 仿真 的 21 个 故障 中 的 19 个 上 获得 了 
最 好 的 检测 结果 。 


5 实际 应 用 57 


烧结 过 程 (Sintering Process: SP) 在 钢铁 工业 中 至 关 重 要 ， 同 时 也 会 消耗 

量 的 能 源 。 动 态 预 测 SP 的 碳 消耗 有 助 于 节约 能 源 和 减少 碳 排放 。 传 统 的 SP 
建 模 基于 一 定 的 假设 , 无 法 适应 SP 的 系统 动态 特性 , 基于 数据 的 机 器 学 习 模型 
可 以 克服 传统 模型 的 不 足 。Hu 等 (146) 提出 了 一 种 动态 建 模 方法 框架 ， 可 以 自 
动 识别 过 程 工 况 状态 ， 从 而 进行 碳 消耗 预测 。 该 方法 框架 结合 了 AKFCM RÉ 
算法 、 基 于 CE 的 模型 选择 和 宽度 学 习 模型 方法 。 作 者 在 一 家 钢铁 企业 的 实际 
数据 上 验证 了 方法 的 有 效 性 ， 证 明了 CE 可 以 快速 地 捕捉 不 同 工 况 下 SP 中 复 
杂 的 相关 关系 模式 ， 从 而 使 该 方法 能 够 比 传统 方法 更 准确 地 预测 烧结 碳 消耗 。 


5.39 可靠 性 工程 


退化 过 程 (degradation processes) 在 各 种 工程 系统 中 普遍 存在 ， 导 致 系统 
可 靠 性 的 降低 甚至 失效 ， 如 人 金属 材料 的 疲劳 和 腐蚀 、 半 导体 器 件 的 参数 漂移 等 。 
退化 过 程 建 模 是 评估 系统 和 产品 有 效 性 和 寿命 的 主要 技术 手段 之 一 。 由 于 现代 
系统 的 复杂 性 ， 影 响 退化 过 程 的 因素 较 多 ， 因 素 变量 本 身 具 有 非 线性 特征 ， 且 
变量 之 间 又 相互 关联 ， 从 而 对 退化 过 程 建 模 构成 了 可 靠 性 工程 的 一 个 基本 难题 。 
如 果 建 模 时 忽略 了 因素 之 间 的 相关 性 ， 就 会 导致 模型 错误 和 可 靠 性 估计 误差 。 伟 
统 的 衡量 因素 之 间 的 相关 性 主要 采用 线性 相关 系数 ， 难 以 处 理 复杂 的 相关 关系 。 
Sun 等 [147] 提出 采用 copula 对 过 程 因 素 之 间 关系 建 模 ， 并 用 CE 来 度量 退化 
过 程 因 素 之 间 的 关联 。 他 给 出 了 一 种 参数 化 CE 估计 方法 ， 并 成 功 应 用 于 微波 
电子 组 件 的 退化 过 程 分 析 中 。 结 果 表 明 ， 该 方法 能 够 分 析 不 同 阶段 的 退化 过 程 。 

砂轮 是 数控 磨床 的 关键 核心 部 件 ， 用 于 对 工件 表面 进行 磨 前 加 工作 业 ， 其 
物理 磨损 程度 直接 影响 加 工 质量 和 效率 。 因 此 ， 砂轮 的 维修 和 保养 十 分 重要 ， 如 
何 对 其 进行 预测 性 维护 是 一 个 关键 的 问题 。 程 谢 [LAS] 提出 了 一 种 基于 CE 和 
最 大 相关 最 小 元 余 的 特征 选择 方法 ， 用 于 构建 砂轮 剩余 寿命 预测 模型 。 他 基于 
威 圣 高 科 CPM2.2 凸轮 轴 生产 线 上 5 个 磨床 上 55 个 参数 的 SCADA 数据 ， 对 
比 了 多 种 相关 性 特征 选择 方法 ， 发 现 基于 CE 的 方法 能 够 有 效 地 计算 出 传统 相 
关 性 方法 不 能 发 现 的 非 线性 特征 关系 ,得 到 的 15 个 参数 与 砂轮 剩余 寿命 密切 相 
关 ， 符 合 磨床 运行 机 理 。 


5.40 ”冶金 工程 


高 纯 金属 材料 是 具有 很 高 纯度 的 特殊 材料 , 具有 高 电导 率 和 稳定 性 、 良 好 的 
光学 性 能 等 物理 特性 ， 是 制造 各 种 精密 科学 仪器 和 高 科技 产品 的 必 备 材料 。 制 
备 高 纯 金属 需要 精密 的 工艺 来 保证 高 纯度 ， 但 传统 工艺 方法 普遍 存在 制备 纯度 
低 的 问题 。 真 空 车 馏 法 则 可 以 绿色 高 效 地 提纯 金属 ， 但 其 工艺 参数 需要 手动 调 
节 ， 依 赖 于 人 的 经 验 。 田 庆 华 等 提出 了 一 种 真空 蒸馏 制备 高 纯 金 属 的 优化 
方法 ， 利 用 CE 等 机 器 学 习 技 术 筛 选 出 能 够 保证 高 纯度 和 低 杂 质 的 工艺 参数 集 
合 ， 建 立 以 纯度 和 杂质 含量 为 目标 变量 的 预测 模型 ， 再 基于 此 模型 利用 参数 寻 
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优 方 法 得 到 最 佳 工 艺 参数 ， 用 于 高 纯 金 属 制 备 。 他 利用 该 方法 进行 了 真空 蒸 / 
制备 高 纯 金 属 硒 和 硝 的 工艺 参数 优化 实验 ， 基 于 CE 等 特征 选择 方法 发 现 ; 
冷凝 温度 和 真空 度 对 制备 纯度 具有 重要 性 ， 保 温 时 间 、 敬 饮 
具有 重要 性 。 经 过 不 断 的 迭代 循环 实验 ， 
出 备 效果 ， 可 以 根据 不 同 产 品 需 求 对 工艺 


温度 、 保 温 时 间 、 
温度 、 升 温 速 度 和 冷凝 温度 对 杂质 含量 
该 方法 所 得 工艺 参数 能 够 获得 良好 的 
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5.44 化 学 工程 


故障 诊断 对 化 学 过 程 的 安全 、 高 效 运 行 至 关 重 要 , 数据 驱动 的 故障 诊断 方法 
是 实际 生产 运行 中 的 主要 方法 之 一 。 为 了 构建 诊断 模型 , 构建 合理 的 正常 和 故障 
状态 的 过 程 表 示 是 问题 的 关键 环节 。Yin 等 提出 了 一 种 基于 CE 的 灰 度 相 
关 空 间 的 故障 诊断 方法 ， 通 过 变量 之 间 的 CE 相关 性 矩阵 来 刻画 过 程 的 正常 和 
故障 状态 , 再 将 矩阵 作为 卷 积 神经 网 络 的 输入 来 构建 故障 分 类 模型 。 他 们 将 方法 


应 用 于 田纳西 伊 斯 曼 (Tennessee Eastman) 过 程 的 故障 诊断 数据 ， 结 果 表 明 该 
方法 取得 了 95% 以 上 的 诊断 准确 率 , 验证 了 方法 的 有 效 性 。 主 元 分 析 法 (PCA) 


是 一 种 常用 的 多 变量 过 程 检 测 方法 ， 原 理 是 基于 最 大 方差 准则 从 一 组 过 程 变 量 
构建 过 程 检测 统计 量 ， 但 其 仅 适用 于 线性 的 情况 。Wei 和 Wang (151) [152] 提出 


了 一 种 基于 CE 的 非 线 | 


阵 得 到 


= 


Æ PCA 方法 (CEPCA)， 从 具有 非 线 性 特征 的 CE 4E 
过 程 检测 统计 量 。 他 们 将 方法 应 用 于 田纳西 伊 斯 曼 过 程 数 据 ， 并 与 PCA 


方法 进行 了 对 比 ， 结 果 表 明 ，CEPCA 方法 获得 了 更 好 的 故障 检测 率 结果 。Pan 


个 基于 关联 故障 因果 图 构建 的 故障 传播 和 根 因 分 析 方 法 ， 称 为 


as [153] 提出 了 


KPCA-DTMTE, ， 其 中 基于 CE 的 TE 被 月 


2 LN 


因 。 


日 于 分 析 因 果 关 系 。 他 们 将 该 方法 应 
用 于 田纳西 伊 斯 曼 过 程 ， 证 明了 方法 能 够 追踪 故障 传播 路 径 并 获知 故障 发 生 原 


理解 化 工 过 程 变 量 之 间 的 因果 关系 对 于 过 程控 制 十 分 重要 ， 有 助 于 更 好 的 


过 程 监测 和 故障 诊断 。 利 月 


因果 发 现 方法 构建 化 工 过 程 因果 关系 图 ， 可 以 对 故 


障 进行 根 因 分 析 ， 是 故障 诊断 的 重要 方法 之 一 。Bi 等 fsd 提出 了 一 种 基于 深 


度 学 习 进 行 因果 发 现 的 CGTST 方法 ， 并 与 


T CE 的 TE 等 多 种 方法 进行 了 


对 比 。 实 验 结果 表明 ,在 一 个 5 变量 的 连续 搅拌 槽 式 反 应 器 数据 上 ，TE 方法 获 
得 的 反应 图 结果 非常 接近 于 真实 情况 ; 在 田纳西 伊 斯 曼 过 程 数据 上 ，TE 方法 也 


取得 了 接近 于 真实 情况 的 佑 计 结果 ， 体 现 出 了 较 强 的 实用 性 。 
软 测量 技术 是 化 工 过 程 建 模 的 重要 方法 之 
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， 指 通过 易 测 量 的 过 程 变量 来 


估计 推断 难以 直接 测量 的 过 程 变量 。 然 而 ,， 受 实际 生产 过 程 中 设备 故障 、 环 境 干 
扰 和 信号 传输 等 多 种 因素 的 影响 ， 过 程 变量 数据 往往 包含 大 量 的 缺失 值 ， 因 此 
需要 进行 缺失 值 补 全 。 生 成 对 抗 补 全 网 络 (Generative Adversarial Imputation 
Nets: GAIN) 是 一 种 以 生成 对 抗 网 络 算法 框架 为 基础 的 数据 补 全 方法 ， 但 当 缺 


失 值 数量 较 大 时 ， 


算法 的 性 能 难以 满足 实际 需求 。 武 昊 [55] 提出 了 一 种 改进 设 


计 的 GAIN 算法 框架 ， 称 为 信息 增强 GAIN (IEGAIN)， 其 中 CE 被 用 于 计算 
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权重 矩阵 以 作为 新 算法 中 生成 器 的 输入 。 他 分 别 在 UCI 的 Spam 和 Letter 数 
据 集 、 公 开 的 火电 厂 数 据 集 和 脱 丁 烷 塔 过 程 数据 集 和 实际 的 聚 丙烯 生 产 过 程 数 
据 上 , 将 IEGAIN 与 GAIN 等 其 它 经 典 算法 进行 了 对 比 , 结果 表明 IEGAIN 能 
够 以 最 低 的 误差 补 全 数据 缺失 值 。 


5.42 ”航空 航天 


航空 飞行 器 系统 日 趋 复杂 ， 飞 行 器 设计 首先 需要 加 深 对 其 总 体 设计 参数 的 
认识 。 对 各 种 设计 参数 间 的 耦合 关系 的 理论 分 析 ， 有 助 于 分 析 设 计 方案 可 行 性 
或 优化 总 体 设计 方案 。Krishnankutty 等 [156] 基于 CE 与 MI 的 等 价 关系 ， 提 
出 了 两 种 基于 Copula 的 MI 估计 方法 ， 并 将 方法 应 用 于 美国 22 种 喷气 战斗 机 
的 技术 参数 数据 的 分 析 ， 估 计 了 飞行 航程 和 可 承受 负载 之 间 的 耦合 关系 ， 验 证 
了 分 析 方法 的 有 效 性 。 
卫星 是 航天 时 代 的 主要 航天 器 类 型 ， 在 信息 时 代 有 着 广泛 的 民事 和 军事 用 
途 。 作 为 一 种 在 极端 环境 运行 的 复杂 系统 ， 卫 星 的 在 轨 健 康 状 态 监测 十 分 重要 。 
卫星 通 测 数据 是 各 种 传感器 参数 的 编码 ， 包 含 了 卫星 内 部 运行 系统 物理 参数 的 
交互 关系 信息 。 卫 星 的 异常 模式 会 由 于 这 种 交互 而 在 内 部 传播 ， 因 此 分 析 这 种 
内 部 交互 导致 的 故障 传播 链条 有 助 于 及 时 发 现 卫星 异常 状态 ， 保 障 卫星 正常 运 
行 。 分 析 遥 测 参 数 之 间 的 因果 关系 是 一 种 解决 问题 的 路 径 。Liu 等 [157] 提出 直 
接 将 基于 CE 的 TE 应 用 于 分 析 真实 的 卫星 通 测 数据 ， 得 到 了 通 测 参数 之 间 的 
故障 传导 图 ， 结果 要 优 于 传统 的 TE 方法 。 Zeng 等 (158) 提出 了 一 种 改进 的 TE 
度量 ， 称 为 NMCTE， 用 于 分 析 遥 测 参数 之 间 的 因果 关系 网 络 ， 该 度量 利用 了 
基于 CE 的 TE 表示 和 估计 方法 。 他 们 又 提出 了 基于 所 得 因果 网 络 的 异常 检测 
的 CN-FA-LSTM 方法 。 他 们 将 NMCTE 方法 应 用 于 真实 的 卫星 适 测 数据 ， 得 
到 了 具有 良好 的 可 解释 性 的 因果 网 络 。 他 们 又 将 CN-FA-LSTM 方法 在 NASA 
公开 的 SMAP 和 MSL 数据 集 上 与 其 它 6 种 方法 进行 了 对 比 ， 验 证 了 方法 的 优 
越 性 。 
涡 扇 发 动机 是 喷气 式 飞机 最 常用 的 发 动机 ， 具 有 高 效 、 可 靠 和 节能 的 特点 ， 
是 现代 航空 业 的 关键 设备 之 一 。 涡 扇 发 动机 结构 复杂 ， 且 长 期 在 极端 环境 下 运 
行 ， 导 致 其 容易 出 现 磨损 和 老化 ， 因 而 监测 其 健康 状态 ， 进 而 开展 故障 预测 和 
维修 保养 ， 对 于 保障 航空 安全 、 提 高 涡 扇 发 动机 的 可 靠 性 和 使 用 寿命 至 关 重要 。 
因而 ， 如 何 评估 发 动机 的 健康 状态 是 一 个 基础 性 的 关键 问题 。 贾 如 侠 [159] 提出 
了 一 种 涡 扇 发 动机 的 健康 指标 ， 采 用 证 据 推理 方法 融合 发 动机 传感器 监测 数据 
度量 发 动机 健康 状态 ， 其 中 CE 被 用 于 推理 过 程 中 计算 发 动机 传感器 变量 的 可 
靠 度 。 他 将 方法 应 用 于 NASA 格林 中 心 提供 的 引擎 性 能 退化 模拟 数据 集 ， 并 与 
两 种 传统 方法 进行 了 对 比 ， 结 果 表 明 新 方法 对 发 动机 健康 状态 的 评估 效果 更 好 ， 
这 得 益 于 方法 融合 了 基于 CE 度量 的 传感器 变量 间 非 线性 相关 性 信息 。 他 进 一 
步 利 用 得 到 的 一 维 复合 健康 指标 建立 了 发 动机 故障 预测 模型 和 剩余 寿命 预测 模 
型 ， 都 获得 了 较 对 比方 法 更 精确 的 预测 效果 。 
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航班 延误 是 影响 国际 民航 业 正常 有 效 运行 的 主要 问题 之 一 ， 不 仅 给 旅客 千 
成 出 行 不 便 ， 也 给 航空 业 带 来 巨大 经 济 损失 。 航空 系统 是 一 个 有 机 的 整体 , 运行 
中 存在 航班 资源 的 上 下 游 共享 ， 带 来 了 系统 粗 合 ， 导 致 上 游 航 班 的 到 港 延误 会 
向 下 游 传播 ， 因 此 航班 延误 管控 首先 需要 对 这 种 延误 因果 关系 进行 分 析 。 吴 格 
等 [160] 提出 利用 一 种 基于 CE 的 TE 估计 器 来 分 析 机 场 的 航班 延误 时 间 序列 
之 间 的 因果 关系 强度 的 方法 ， 使 民航 信息 系统 具有 了 分 析 两 个 航班 之 间 是 否 具 
有 延误 因果 关系 的 能 力 ， 从 而 能 够 深入 理解 和 利用 航空 系统 节点 间 航 班 延误 的 
内 在 关系 。 


5.43 RLM 


武器 装备 效能 评估 是 指 对 某 一 武器 的 技术 指标 和 作战 性 能 进行 全 面 、 系 统 、 
科学 的 分 析 和 评价 。 由 于 武器 装备 系统 及 其 运用 的 复杂 性 ， 评 估 需 要 考虑 多 方 
面 因素 ， 因 此 就 需要 一 套 综合 的 指标 体系 来 完成 评估 。 效 能 指标 体系 往往 包含 
大 量 不 同类 型 的 指标 ， 从 而 造成 指标 之 间 具 有 相关 性 ， 导 致 指标 体系 维 数 大 , 需 
要 对 其 进行 约 简 ， 以 利于 后 续 的 评估 流程 。 传 统 的 约 简 方法 一 般 采 用 相关 系数 
等 数学 工具 ,但 其 线性 假设 在 实际 问题 通常 得 不 到 满足 。 陈 爱 真 等 [Lon] 提出 了 
一 种 指标 体系 约 简 方法 ， 利 用 CE 度量 指标 之 间 相关 性 ， 通 过 比较 每 个 指标 与 
其 它 指标 之 间 的 平均 CE 来 约 简 指标 。 他 利用 评估 对 象 的 仿真 数据 实施 验证 了 
该 方法 ， 证 明了 该 方法 具有 可 处 理 指标 间 非 线性 相关 性 关系 的 优点 ， 较 传统 方 
法 更 为 科学 和 准确 。 


5.44 车 辆 工程 


现代 汽车 的 电子 设备 系统 由 车 载 网 络 连接 集成 ， 提 高 了 乘坐 的 舒适 性 、 
全 性 和 多 功能 特性 。 但 随 着 智能 车 辆 技术 的 发 展 ， 车 内 设备 也 成 为 了 黑客 攻 
的 对 象 ， 对 车 辆 安全 构成 了 威胁 。CAN 总 线 是 一 种 智能 车 辆 内 连接 控制 各 个 车 
辆 电子 组 件 的 数据 通信 协议 , 已 在 汽车 领域 成 为 事实 上 的 主流 标准 ， 但 由 于 缺 
乏 加 密 、 认 证 等 机 制 ， 其 在 网 络 攻击 面前 非常 脆弱 。 因 此 ， 研 究 CAN 总 线 的 人 
侵 检 测 技术 成 为 了 提高 其 安全 性 的 主要 技术 手段 之 一 。Gao 等 [162] 提出 了 一 
种 轻 量 级 神经 网 络 设计 方法 ， 用 于 检测 CAN 总 线 入 侵 事件 ， 其 首先 分 析 异 党 
CAN 数据 帧 的 属性 集合 ， 再 利用 CE 选择 出 众多 属性 中 与 人 侵 攻 击 有 关 的 少数 
属性 ， 再 利用 这 些 属性 构建 一 种 CanNet 神经 网 络 检测 器 以 检测 入 侵 。 他 们 利 
用 现代 汽车 索纳塔 YF 的 CAN 总 线 数据 验证 了 CanNet 方法 ， 结 果 表 明 该 方 
法 与 同类 方法 相 比 具 有 高 检测 率 、 高 实时 性 和 低 内 存 占用 的 优点 。 


对 


Er 


5.45 ”电子 工程 


半导体 芯片 的 集成 度 的 不 断 提高 ， 对 微 电 子 封装 的 要 求 也 越 来 越 高 。 微 电 
子 封装 起 着 隔绝 外 部 环境 、 散 发 内 部 热量 的 功能 ， 对 集成 电路 的 稳定 运行 具有 
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至 关 重 要 的 保护 作用 。 这 就 要 求 封装 材料 具有 良好 稳定 性 、 高 强度 ,同时 还 要 满 
足 其 他 物理 性 质 。 刘 勃 63 以 Cu 基 材 料 为 主体 ， 建立 CuNi 二 元 合金 体系 ， 
利用 第 一 性 原理 与 机 器 学 习 相 结合 的 方法 ， 基 于 团 徐 相 关 函 数 特征 ， 预 测 分 别 
与 材料 强度 和 稳定 性 相关 的 构 型 能 和 杨 氏 模 量 。 作 者 利用 CE 分 析 了 预测 模型 
的 合理 性 ， 通 过 计算 特征 之 间 的 相关 性 ， 以 及 特征 与 构 型 能 和 杨 氏 模 量 之 间 的 
相关 性 ， 发 现 模型 特征 与 杨 氏 模 量 之 间 的 相关 性 更 高 ， 同 时 构 型 能 与 杨 氏 模 量 
之 间 的 相关 度 较 低 ， 增 进 了 模型 的 可 解释 性 ， 有 助 于 设计 更 合理 的 材料 性 质 预 
测 模型 。 


5.46 通信 工程 
通信 安全 是 移动 通讯 的 主要 关切 之 一 ， 一 般 通 过 通信 层 的 加 密 技术 加 以 解 
决 。 在 资源 受 限 的 新 兴 网 络 (如 IoT、WSN 等 ) 中 ， 密 钥 分 发 是 一 个 挑战 。 无 
线 信道 的 互 易 性 为 通信 双方 提供 了 共享 密 钥 的 机 制 ， 双 方 可 通过 测量 无 线 信道 
获取 密 钥 . 密 钥 容量 概念 为 无 线 信 道 密 钥 提取 提供 了 理论 上 限 。 然而 , 现实 中 密 
钥 容 量 往往 受到 诸多 实际 物理 条 件 (如 终端 移动 、 信 道 噪声 等 ) 的 限制 ,需要 对 
其 进行 定量 分 析 。Wang 等 [164] 研究 了 均匀 散射 环境 下 物理 因素 对 密 钥 容量 的 
影响 ， 将 其 转化 为 随机 变量 的 MI 计算 问题 ， 并 基于 仿真 物理 环境 验证 其 理论 
推导 的 正确 性 ， 仿 真实 验 采用 了 基于 CE 的 MI 估计 算法 估计 密 钥 容量 。 仿 真 
结果 表明 ， 理 论 推导 得 到 了 验证 ， 能 够 指导 实际 应 用 。 
第 6 代 (6G) 通信 网 络 技术 的 研发 需要 面 对 的 主要 挑战 之 一 就 是 要 达到 更 
高 的 数据 传输 率 ， 以 满足 更 极致 的 体验 、3D 视觉 、 工 业 智能 等 场景 需求 。 传 统 
的 通信 理论 没有 考虑 传输 信息 中 的 语义 信息 ， 而 6G 技术 可 以 利用 基于 AT 的 
语义 通信 来 达到 更 高 的 网 络 传输 性 能 。 傅 宇 舟 等 [165] 提出 了 一 种 面向 6G 网 络 
的 基于 语义 通信 的 端 到 端 服务 框架 ， 将 语义 通信 与 AI 的 语义 分 析 能 力 相 融 合 ， 
利用 基于 Transformer 的 编 解码 器 来 压缩 语义 信息 。 其 中 ， 语 义 编码 器 的 损失 
函数 由 基于 欧式 距离 的 语义 损失 函数 和 基于 CE 的 信息 量 损失 函数 组 成 。 他 们 
利用 图 像 数据 验证 了 该 服务 框架 ， 使 用 ImageNet-1K 数据 集训 练 框架 ， 再 使 用 
VOC2012 数据 集 进行 仿真 验证 。 结 果 表 明 ， 与 传统 通信 方案 相 比 ， 该 服务 框架 
在 目标 检测 和 图 像 语 义 重建 上 均 取 得 了 最 优 性 能 ， 且 取得 了 与 全 语义 特征 传输 
方案 相近 的 性 能 ， 有 望 成 为 6G 网 络 的 技术 内 容 。 


5.47 高 性 能 计算 

提高 能 源 效 率 是 高 性 能 计算 研究 的 一 个 重要 目标 。 通 过 配置 程序 的 最 优 能 
效 设置 ， 如 处 理 器 频率 等 ,可 以 降低 程序 执行 时 的 能 耗 。 但 决定 最 优 配置 是 一 个 
费时 的 过 程 ， 程 序 一 旦 修改 就 需要 重新 配置 。 利 用 机 器 学 习 方法 通过 性 能 事件 
来 自动 决定 最 优 配置 是 一 个 新 的 研究 方向 ， 但 需要 确定 哪些 事件 是 能 效 相关 的 
以 决定 最 优 配置 。Gocht-Zech 提出 利用 特征 选择 的 方法 来 选择 能 效 相关 事 
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件 ， 他 选择 了 6 种 特征 选择 方法 ， 并 基于 CE 理论 给 出 了 相应 的 估计 方法 。 实 
际 数据 实验 表明 该 基于 copula 的 方法 能 够 鉴别 出 能 效 相关 的 性 能 事件 ， 从 而 提 
高 程序 执行 时 的 能 效 ， 在 增加 77% 运行 时 的 成 本 下 节省 了 24% 的 能 源 消耗 。 


5.48 ”信息 安全 


对 抗 性 攻击 和 防御 是 信息 安全 领域 的 热点 问题 ， 是 指 攻击 者 利用 对 系统 和 
算法 的 特性 的 了 解 发 动 的 攻击 以 及 相应 的 防御 手段 。 深 度 神 经 网 络 是 机 器 学 习 
领域 的 一 类 重要 算法 ， 应 用 领域 十 分 广泛 ， 研 究 其 攻击 和 防御 算法 对 该 类 人 工 
智能 系统 的 安全 具有 重要 意义 。Liu 等 [167] 提出 了 一 个 基于 CE 的 MI 估计 算 
法 ， 称 为 CE?， 并 利用 此 算法 提出 了 一 个 神经 网 络 对 抗 训 练 算法 。 该 算法 充分 
利用 了 基于 CE 的 MI 估计 对 对 抗 攻击 的 可 靠 性 ， 设 计 网 络 训练 算法 以 引导 神 
经 网 络 预测 模型 最 小 化 对 抗 样本 的 攻击 。 作 者 首先 通过 仿真 实验 证 明了 CE? 相 
对 于 传统 MI 估计 算法 的 性 能 优势 ， 然 后 在 CIFAR-10 和 CIFAR-100 数据 集 上 
验证 了 基于 CE? 的 神经 网 络 防御 算法 在 典型 深度 神经 网 络 对 抗 性 攻击 的 防御 
中 相对 于 其 他 同类 经 典 防 御 算 法 的 优越 性 。 


= 


5.49 ”测绘 遥感 


高 光谱 遥感 是 应 用 广泛 的 前 沿 测绘 技术 ， 通 过 通 感 光谱 成 像 ， 能 够 获取 不 
同 地 物 的 诊断 性 光谱 信息 。 由 于 高 光谱 图 像 波段 数 多 ， 数 据 大 且 存 在 大 量 匈 余 
信息 ， 需 要 利用 特征 提取 技术 对 有 效 波段 进行 选择 ， 以 表征 成 像 对 象 体 。 因 此 ， 
高 光谱 图 像 波 段 选择 是 该 领域 的 重要 问题 之 一 ， 主 要 思想 是 选择 一 个 波段 子 集 ， 
使 得 成 像 评价 准则 函数 达到 最 大 。 其 中 ， 基 于 信息 论 的 准则 是 波段 选择 的 主要 
方法 之 一 。Zeng 和 Durrani [168] 提出 利用 基于 CE 的 MI 选择 波段 的 方法 ， 并 
将 其 应 用 于 美国 印第安 纳西 北 的 Indian Pine 处 采集 的 真实 高 光谱 数据 , 结果 表 
明 CE 提供 了 一 种 鲁 棒 的 MI 波段 选择 方法 。 


5.50 ”金融 工程 


量化 金融 是 通过 对 金融 数据 的 数量 关系 分 析 指 导 金 融 决 策 的 新 兴 金 融 学 科 。 
基于 金融 交易 系统 产生 的 大 量 金融 市 场 交 易 数据 ， 利 用 数学 工具 分 析 金 融 产 品 
之 间 的 数量 关系 ， 可 以 明晰 市 场 规律 和 动态 ,进而 管理 金融 资产 。 其 中 ， 分 析 市 
场 金 融 变 量 之 间 的 相关 性 是 金融 工程 的 重要 问题 ， 可 以 帮助 交易 员 洞 察 它 们 之 
间 的 动态 关系 ， 进 而 调整 投资 组 合 和 管理 风险 。 由 于 金融 市 场 变 量具 有 非 线性 、 
非 高 斯 性 等 特征 , 使 得 MI 成 为 了 理想 的 相关 性 度量 , 而 MI 估计 算法 则 成 了 量 
化 金融 工具 箱 的 重要 工具 之 一 。 基 于 CE 的 MI 估计 算法 就 被 量化 金融 算法 库 
MLFinLab [169| 实现 ， 并 得 到 业界 广泛 应 用 。 
于 中 国 股票 市 场 ( 沪 市 A 股指 数 、 深 市 A 股指 数 和 沪 深 300 指数 ) 真实 
数据 ，Wang 研究 了 利用 股票 资产 之 间 的 相关 性 关系 网 络 ， 优 化 投资 组 合 


5 实际 应 用 


的 方法 。 方 法 采 月 


了 包括 CE 在 内 的 线 怕 


EFIE H 


FHR H 


EEE, APH 
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EE 


度 构建 股票 资产 间 的 关系 网 络 ， 进 而 构建 投资 组 合 。 研 究 
参数 函数 族 的 CE (MI). Breil (L71) 研究 了 投资 标的 筛选 的 问题 ， 他 
资产 收益 率 、 净 利润 三 年 复合 增长 率 和 
公司 中 初步 筛选 了 10 家 A BEEN 


公司 ， 再 利 月 


EDEMA A 股 4000 多 家 上 站 
H CE 等 工具 对 标的 股票 的 价格 


数据 进行 了 统计 分 析 ， 以 判断 投资 组 合 的 抗 风险 能 力 。 


股票 


的 好 坏 对 投资 者 十 分 重要 。ST 股票 
吓 ， 有 助 于 投资 者 选择 投资 组 合 


ADL 


和 场 的 投资 者 总 是 硕 望 投资 发 展 恨 好 的 上 


ill BE ee EK 


一 类 重要 问题 x4 


zi] 


和 场 投资 者 具有 参考 价值 。 朱 人 1 


中 合计 了 不 同 Copula 


+4 


J 


TAF], 


因此 : 


JL HH 
只 股票 


Hal 


国 A 股市 场 实施 的 股票 风险 警 
规避 风险 。 股 票 分 类 是 股票 分 析 领 域 的 
JL [172] 提出 了 一 种 基于 


机 器 学 习 方法 的 ST 股票 分 类 方法 ， 采 用 Boruta 算法 和 CE 方法 进行 特征 选 


TE, 再 利 月 


H 6 种 回归 模型 进行 预测 , RI 


H Optuna 框架 对 模型 的 超 参 数 寻 优 。 他 


选取 了 tushare 数据 库 中 上 交 所 和 深交 所 的 2076 只 股票 (A 351 H ST 股票 ) 


自 2016 年 以 来 的 数据 ， 含 有 139 个 股票 特征 变 
法 筛选 了 7 个 可 解释 的 变 


E 
zi 


H 


E 


Ho 


模型 组 合 上 获得 了 最 好 的 预测 精度 。 
分 析 金 融 数 据 需 要 对 其 建 模 数学 模型 ， 但 金融 变量 以 及 其 联合 分 布 具 有 非 


斯 性 , 给 


Fy 


数据 建 模 带 来 了 挑战 。Calsaverini 
巧妙 的 Copula 函数 模型 选择 方法 。 该 方法 利 月 


最 终 利 月 


将 Copula 鉴别 问题 的 目标 与 边缘 函数 分 开 ， 再 利 月 
以 MI 为 上 界 的 模型 选择 问题 。 作 者 还 定义 了 超 量 信息 (Informaion Excess) 的 


概念 。 作 者 将 建 模 方 法 应 有 
日 对 数 收益 率 数据 ， 利 月 


的 有 效 性 。 


R J Copula 是 一 种 灵活 的 构建 多 元 copula 分 布 的 工 


H Boruta 和 CE Jy 


模型 预测 结果 表明 该 方法 在 得 选 特征 和 XGBoost 


和 Vicente (173) 74) 给 出 了 一 种 
H CE (MI) 的 边缘 分 布 无 关 特色 
H CE 的 定义 ， 将 问题 转化 为 


E> 


HF 1990 + 2008 年 间 标 普 500 指数 的 150 只 股票 的 


肯 超 量 信息 ， 验 证 了 该 方法 作用 于 T-Copula 函数 族 时 


L, MERRIA E 


建立 此 类 模型 的 关键 步 又 。Alanazi |175] 基于 CE 和 MI, CM 之 间 的 关系 , 提 


出 了 一 种 RE copula 的 构建 方法 ,基于 MI 建立 最 小 4 
每 对 边 上 的 CMI， 根 据 CMI 建立 新 的 子 树 六 
该 R BÉ copula 构建 方法 应 月 


于 股票 间 相关 结 


E 成 树 ， 再 计算 前 一 子 树 
FERRER copula 的 层级 结构 。 他 将 
构 的 建 模 问题 , 基于 德 


=| DAX 指 


数 15 种 主要 股票 数据 (2005 年 1 月 至 2009 年 8 月 ) 构建 了 资产 间 关系 结构 
的 R KE copula 模型 ， 与 传统 方法 相 比 ， 该 方法 建立 的 copula 相关 结构 模型 能 
够 更 好 地 拟 合 数据 。 王 念 镶 [170] 基于 CE 5 MI, CMI 之 间 的 关系 提出 了 一 个 


FEMME copula 结构 选择 算法 。 作 者 利 有 


的 相关 结构 ， 利 月 


8], 从 拟 合 优 度 指标 看 ， 后 者 的 结果 亿 
果 刻 画 的 五 大 行业 资产 之 间 的 依赖 关系 更 合理 。 
金融 危机 的 发 9 


的 结 


基于 Kendall FAX ARCHIE copula 结构 和 


E 使 4 


于 前 者 的 结果 ; 从 可 解释 怕 


该 算法 分 析 了 中 证 五 大 行业 指数 之 间 
H 2019 Æ 3 H 1 HÆ 2022 年 3 月 1 日 之 间 的 数据 ,构建 了 
CT MI AYRE copula 结构 ， 结 果 表 


LARA, MA 


DUE MESA E 


风险 问题 受到 各 


国 监管 部 门 的 关注 。 
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我 国 股票 ill 


TAWI E 


1 深 了 经 济 
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金融 的 一 体 化 程度 ， 造 成 了 各 个 行业 之 间 的 


耦合 ， 从 而 加 大 了 系统 性 风险 的 程度 ， 因 此 需要 对 跨行 业 的 风险 汶 出 效应 加 以 


研究 ， 以 期 进行 防范 和 化 解 。 
融 风 
日 我 


国 股票 


和 路 行业 风险 溢出 特征 的 动态 


险 组 合 。 能 靖宇 (177) 采用 CE 等 工 
35 11 个 行业 的 日 对 数 收益 率 数据 进行 了 分 析 ， 研究 行业 个 体 风险 


y) 


VENECIA Ze 


的 数学 工具 


Y > 


LXI 20054 1H 5 H 


演变 过 程 , 特别 针对 2008 年 4 


E PAY 


十 分 适合 度量 金 


至 2020 年 7 月 3 


ML. 2013 年 钱 


eA 2015 年 股灾 三 个 时 期 的 风险 特征 进行 研究 。 研 究 发 现 , 行业 联合 CE 动态 


变化 浪 后 于 累加 独立 炉 发 生 ， 


说 明了 行业 间 联 动 导致 了 系统 怕 


风险 增强 ; 2008 


更 强 ， 破 坏 程度 更 大 ; 近期 11 个 行业 内 部 关联 水 


金融 危机 的 市 场 内 部 传染 改 
平 较 强 。 

金融 脆弱 性 是 由 好 
性 度量 工具 可 以 使 


日 益 成 熟 的 网 络 分 析 理 论 为 从 4 
但 传统 的 网 络 构 建 方 法 只 是 基 


能 够 反映 金融 系统 中 的 非 线性 


六 融 部 门 自身 高 负债 经 
国家 及 时 地 对 和 危机 进行 响应 和 干预 ， 因 此 得 到 了 大 量 的 研究 。 


营 带 来 的 内 在 不 稳定 ， 


A 


。 人 金融 脆弱 


全 融 网 络 的 角度 度量 金 
关系 度量 工具 


Rite H 


FRH 


ARH 


进 的 网 络 
构建 
该 度 


Y 


0 


E 


E 


方法 应 月 


at 


晰 地 描述 


H 
mb sý 


过 


EC 


o 


有 风险 是 


言 用 风险 。 信 有 


ni 


= 


3 (Network Curvature) 
金融 网 络 , 再 计算 网 络 的 四 种 离散 Ricci 


危机 前 后 的 市 场 脆弱 性 。 
金融 危机 后 


提供 了 方法 工具 ， 


ME ZS PIS CES 
E. Chen 等 [178] 提出 了 一 种 利 月 


H CE m 


tS 


iA 


E T 


"E 


KEJT 


度量 方法 ， 该 方法 先 利 月 


H CE 
FE 度 量 。 他 们 将 


8t 


HF 2006 4E 4 月 至 2022 年 4 月 间 沪 深 300 指数 的 股票 数据 ， 分 


于 皮尔 逊 相关 的 方 


场 的 脆弱 性 ，j 


行 信 月 


是 管控 金融 风险 的 决策 工具 。 


该 类 模型 根据 客户 的 信和 月 


等 级 , 来 决定 其 金融 权限 。 传 
{KAA 


模型 构建 方法 ， 能 够 显著 提高 建 模 效 率 ， 可 以 同时 保证 模型 


统 的 建立 信用 评分 卡 模型 方法 依 


成 的 模型 不 够 完善 。 孔 祥 永 等 [79] 提出 一 种 基于 CE 的 自动 化 信 有 


风险 
历史 数据 为 其 划分 信和 月 
靠 专 家 经 验 , 效率 


昌 具 有 传统 风险 度量 同样 的 风险 


金融 银行 业 面 对 的 主要 基本 风险 之 一 ， 保 障 金 融 安全 需要 有 效 
评分 卡 模型 是 一 种 对 客户 进 


评价 的 模型 方法 ， 
i 


有 风险 


Ug e SOU 


FE 能 和 


H 


可 解释 性 。 作 者 将 该 方法 在 真实 信和 月 


果 表 
释 的 客户 信和 月 


特征 。 


P2P (Peer-to-Peer) 借贷 是 


类 金融 模式 的 信用 风 
人 的 资金 安全 构成 了 
个 重要 问题 ， 通 


明 方 法 大 大 缩短 了 建 模 时 间 ， 


通 
E 


提出 利 月 
性 ， 月 


日 以 选择 个 人 


HH 


风险 预测 模型 的 


昌 卡 数据 上 与 专家 建 模 进行 了 对 
且 能 够 得 到 媲美 专家 模型 的 预 讽 


比 ， 实 验 结 
性 能 和 可 解 


种 通过 互联 网 进行 集资 和 放贷 的 金融 模式 , 该 
险 主 要 是 由 借贷 人 未 能 履行 还 款 义 务 造 成 的 ， 对 集资 债权 
巨大 风险 。 因 此 ， 如 何 准 确 地 评估 借贷 方 的 信用 风险 是 一 
过 借贷 数据 构建 个 人 信用 风险 模型 是 一 个 主要 的 解决 方法 。 绢 
H CE 度量 风险 变量 和 个 人 数据 高 维特 征 之 间 的 非 线 折 


EAA 


输入 特征 。 他 利用 美 


fe] P2P 借贷 平 


La 
H 


Lending Club 的 贷款 数据 展开 实证 研究 ， 对 比 了 CE 和 皮尔 逊 相关 系数 两 种 常 


H 


特征 选择 方法 ,发 现 CE WAWER H 


特征 在 XGBoost 模型 上 获得 了 更 好 的 


预测 结果 。 
准确 地 预测 
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金融 产品 价格 可 以 帮助 投资 者 管理 风险 并 进行 投资 决策 ， 因 而 


建立 相关 预测 模型 是 研究 者 关心 的 重要 问题 之 一 。 由 于 金融 产品 之 间 存 在 内 在 


的 市 


DEE, ENN DMA APE 


AEST) AY Ps] RK RE AED TEE OS FT 
价格 间 因 果 关 系 的 迁移 学 习 框架 ， 利 用 
价格 之 间 的 因果 关系 , 以 选择 因 变 量 价格 用 于 预测 果 变 量 价格 , 再 在 选 
习 模型 的 学 习 


种 基于 


金融 产品 


择 的 基础 上 ， 提 出 了 用 于 训练 深度 学 
国际 主要 的 财经 指数 、 能 源 期 货 
至 2021 年 的 每 日 价格 数据 上 ,结果 发 现 ， 利用 


将 算法 分 别 应 用 于 


应 的 因果 联动 效应 。 因 此， 可 以 利用 这 种 价 


模型 。 Zhang 等 [181] 提出 了 


于 CE 的 TE 方法 计算 不 同 


算法 以 得 到 预测 模型 。 他 们 
价格 和 农产品 期 货 价格 2010 


类 价格 间 的 因果 关系 ， 在 此 


疫情 应 对 进而 会 产生 


mE, FIA 


情 对 金融 市 场 的 影响 是 一 个 重要 课题 ， 
和 Syrek [182] 利用 CE 方法 研究 了 波兰 股票 市 场 指 数 在 


XIT 


EF CE 的 TE 方法 发 现 了 同 


日 该 迁移 学 习 框 架 得 到 的 模型 在 三 类 价 
格 数据 上 均 给 出 了 较 同 类 对 比 算法 更 好 的 预测 结 


流行 病 疫情 对 人 群 健康 构成 严重 威胁 , 促使 社会 和 个 体 采取 应 对 措施 .这些 
巨大 的 经 济 社会 影响 ， 特 别 是 对 金融 市 场 的 影响 。 研 究 疫 


场 利 益 主 体 具 有 现实 意义 。Gurgul 


2019 新 冠 疫情 期 间 的 


相关 性 特征 ， 特 别 研究 了 2020 年 3 月 13 日 波兰 疫情 发 生 当天 WIG 指数 和 其 
14 个 板块 指数 之 间 的 相关 性 ， 发 现 宣布 疫情 后 这 种 相关 性 明显 增加 。 这 一 发 现 
。 他 们 还 发 现 CE 方法 得 到 的 结论 与 经 
验 相 符 ， 而 传统 皮尔 逊 相关 得 到 的 结论 则 不 符合 过 去 的 经 验 ， 这 是 因为 CE 可 


与 2008 年 金融 危机 得 到 的 经 验 是 一 致 的 


统计 独立 性 是 统计 学 和 机 还 学 习 领 域 的 基础 性 概念 ， 如 
独立 性 是 该 领域 的 基本 问题 。Copula 理论 提 
的 边缘 函数 与 


通过 将 随机 变量 


有 诸多 公理 性 属 | 
本 文 综述 了 
的 定理 和 推论 ， 


市 场 变量 之 间 的 非 线性 


CE 的 理论 和 应 月 
AX CE Bn 


6 


表示 统计 关联 


E 相 关 关 系 ， 验 证 了 CE 的 优越 性 。 


AT 
总 结 


， 也 就 是 相关 性 的 强度 。CE 是 一 种 具 


共 了 统计 相关 性 表示 的 理论 工 
“ERY Copula 函数 相 分 离 ， 得 到 
表示 任何 关联 性 的 数学 形式 。 而 CE 理论 则 给 出 了 度量 统计 独立 性 的 概念 工具 ， 
度量 了 Copula 函数 表示 中 所 有 的 信息 量 
生 的 理想 的 统计 度量 工具 。 


可 表示 和 度量 统计 


Y 


T 


H, MAT CE 基本 概念 定义 、 
EU. MAT CE 的 非 参 数 估计 方法 。 本 文 介绍 了 


与 MI 等 价 性 


CE 研究 的 最 新 进展 ， 包 括 其 在 统计 学 十 个 基本 问题 (结构 学 习 、 关 联 发 现 、 变 


量 选择 、 因 有 果 发 现 、 
和 变 点 检测 等 ) 上 的 理论 应 月 


ÚS 


H 


个 应 用 对 应 的 深层 次 的 相关 
件 ) 独立 性 度量 框架 与 


, 讨论 了 前 


系统 辨识 、 时 延 估 计 、 域 自 适 应 、 正 态 性 检验 、 双 样本 检验 


四 个 理论 应 用 之 间 的 关系 , 探讨 了 这 


四 


生 和 因果 性 概念 之 间 的 联系 ， 并 将 基于 CE 的 (条 


于 核 函数 和 距离 的 相 


HAt 


度量 框架 进行 了 对 比 ， 指 出 


了 本 理论 框架 在 多 个 方面 的 理论 优越 性 ， 又 通过 仿真 和 实际 数据 实验 评估 验证 


A 软件 实现 


了 CE 的 实际 优越 性 。 
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本 文 综 述 了 CE 在 理论 物理 学 、 天 体 物 理学 、 地 球 物理 学 、 理 论 化 学 、 化 学 


临床 诊断 学 、 老 年 医学 、 精 神 病 学 、 公 共 卫 生 学 、 
学 、 计 算 语言 学 、 新 闻 传播 学 、 法 学 、 
食品 工程 、 土 木 建筑 、 交 通 运 输 、 制 造 工 程 、 可 靠 怕 


经 济 学 、 管 理学 、 


言 恩 学 、 材 料 学 、 水 文学 、 气 候 学 、 气 象 学 、 环 境 学、 生态 学 、 动 物 形 态 学 、 农 
、 认 知 神经 学 、 运 动 神经 学 、 计 算 神 经 学 、 心 理学 、 系 统 生 物 学 、 生 物 信息 学 、 
Ww 


社会 学 、 教 


政治 学 


情报 学 ， 以 及 能 源 工 


ETHE, MELE. WF 


工程 、 航 空 航天 、 兵 器 工程 、 车 辆 工程 、 电 子 工 程 、 通 信 工 程 、 高 性 能 计算 、 信 


BRE, WAERM 


zh LE Se PEUT] Sc Es DY 


T CE 带 来 的 理论 和 


计算 上 的 优势 ， 在 这 些 应 用 中 CE 被 用 来 分 析 和 度量 各 种 类 型 数据 中 的 统计 关 


联 性 或 因果 性 ， 通 过 选择 变量 来 建立 模型 ， 以 及 作为 评价 


了 良好 的 应 用 效果 。C 


本 文 所 述 的 CE 估计 算法、TE Threads. IEA 


E 作为 一 种 基础 


A 软件 实现 


指标 评价 模型 ， 均 取得 


ETH, 不 仅 为 这 些 应 用 提供 了 基本 的 理 
论 和 方法 ， 也 为 应 用 中 各 种 新 方法 论 的 派生 提供 了 可 能 。 


E 检 验 和 双 样 本 检验 的 统 


计量 估计 算法 和 变 点 检测 算法 已 在 R 和 Python 语言 的 copent 算法 包 中 实 


现 


hs 引 ， 分 别 在 CRAN 和 PyPI 上 共享 : 


。 CRAN https://cran.r-project.org/package-copent; 
e PyPI https://pypi.org/project/copent/.. 


相关 源码 见 作者 的 GitHub: Respez//gisiub.con/majianthu/. 
男 ， 第 三 方 实现 的 CE 估计 算法 包括 : 


。R 语言 的 Cylcop 包 [b] pad); 
。 Python 语言 的 MLFinLab 包 和 pytorch-mighty 包 [pas]; 

。 Julia 语言 的 CopEnt.jl £j 和 CausalityTools.jl 包 pah; 以 及 
。 Matlab 和 Python 语言 的 gcmi 包 (65. pas] 等 。 
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